Identity mapping
Identity mapping
Определение
Прямой путь (x) в residual-связи, по которому градиент может течь без умножения на веса, предотвращая затухание.
Где встречается
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 800+ вопросов