English translation is not available yet. Showing Russian content.
overflow
overflow
Определение
Числовое переполнение в вычислениях, когда значение градиента или активации превышает максимально представимое число формата (например, FP16), приводя к NaN и срыву обучения.
Где встречается
- 464. Почему BF16 лучше FP16 для training
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 800+ вопросов