English translation is not available yet. Showing Russian content.
Weight-only quantization
Weight-only quantization
Определение
Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.