English translation is not available yet. Showing Russian content.
Dynamic Quantization
Dynamic Quantization
Определение
Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост в реализации, но даёт меньший прирост скорости по сравнению с другими видами квантизации.
Где встречается
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 320. Что такое ONNX Runtime и когда он выгоден для LLM