Static Quantization
Static Quantization
Определение
Метод квантизации моделей с фиксированными коэффициентами масштабирования, требующий калибровочного датасета для определения диапазонов активаций. Обеспечивает значительное ускорение (до 2x на CPU) и низкую стохастичность.
Где встречается
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 320. Что такое ONNX Runtime и когда он выгоден для LLM