Small Initialization
Small Initialization
Определение
Инициализация весов малыми случайными значениями (например, Normal(0,0.02)), применяемая для эмбеддингов и последних слоёв, чтобы предотвратить затухание градиентов.
Где встречается
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)