English translation is not available yet. Showing Russian content.

Weight-only quantization

Weight-only quantization

Определение

Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.

Где встречается

Навигация