English translation is not available yet. Showing Russian content.
Kaiming initialization
Kaiming initialization
Определение
Инициализация весов для ReLU‑подобных активаций, предотвращающая затухание градиентов; дисперсия устанавливается как sqrt(2/n_in).
Где встречается
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов