中文翻译暂不可用,显示俄语原文。
gradient scaling
gradient scaling
Определение
Техника масштабирования градиентов перед приведением к низкой точности (FP16/FP8) для предотвращения underflow; используется в mixed precision training.
Где встречается
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 464. Почему BF16 лучше FP16 для training
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 800+ вопросов