Weight-only quantization
Weight-only quantization
Определение
Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.
Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.