中文翻译暂不可用,显示俄语原文。
Dynamic Quantization
Dynamic Quantization
Определение
Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост в реализации, но даёт меньший прирост скорости по сравнению с другими видами квантизации.
Где встречается
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 320. Что такое ONNX Runtime и когда он выгоден для LLM