Xavier initialization
Xavier initialization
Определение
Метод инициализации весов нейронных сетей, учитывающий размеры слоёв (Glorot uniform/normal). Стабилизирует дисперсию градиентов на начальных этапах и предотвращает затухание или взрыв.
Где встречается
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов