gradient noise
gradient noise
Определение
Градиентный шум — дисперсия оценки градиента из-за стохастичности; высокая дисперсия ведёт к нестабильности обучения. Обратно пропорционален размеру батча.
Где встречается
- 468. Почему small batch size (32) ухудшает training стабильность
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов