English translation is not available yet. Showing Russian content.

4-bit inference

4-bit inference

Определение

Инференс модели с весами, квантованными до 4 бит. Может быть медленнее 8-bit при малых batch size из-за накладных расходов на деквантование.

Где встречается

Навигация