English translation is not available yet. Showing Russian content.
exploding gradients
exploding gradients
Определение
Проблема обучения глубоких нейронных сетей, при которой градиенты становятся чрезмерно большими, вызывая нестабильность, NaN loss и разрушение обучения. Часто встречается в глубоких LLM.
Где встречается
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 672. Что такое residual connections и зачем они нужны в трансформере
- 800+ вопросов