Weight-only quantization

Определение

Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.

Где встречается

162. Что такое Quasar и как quantized verification ускоряет инференс

Weight-only quantization

Weight-only quantization

Определение

Где встречается

Навигация