FP8-aware training

FP8-aware training

Определение

Метод обучения или дообучения модели с имитацией FP8 квантизации для минимизации потери точности при последующем FP8 инференсе. Позволяет сократить падение метрик (например, MMLU) до 0.5-1%.

Где встречается

Навигация