8-bit inference

8-bit inference

Определение

Инференс модели с весами, отквантованными до 8 бит. В некоторых случаях может быть медленнее 4-битного из-за особенностей аппаратного ускорения и размера батча.

Где встречается

Навигация