中文翻译暂不可用,显示俄语原文。
Quantization-aware training
Quantization-aware training
Определение
Метод обучения модели с имитацией эффектов квантизации (например, FP8 или INT4) на этапе прямого прохода. Позволяет минимизировать потерю точности при последующем инференсе в низкой точности, но требует дополнительных вычислительных ресурсов.
Где встречается
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 209. Настроить AWQ quantization для LLM