residual connections
residual connections
Определение
Соединения, добавляющие вход слоя к его выходу, создающие «шоссе» для градиента. Предотвращают затухание градиентов, но могут дестабилизироваться при шумных градиентах.
Где встречается
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 468. Почему small batch size (32) ухудшает training стабильность
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
- 715. Hyena как заменить attention на свертки, сохранив качество
- 800+ вопросов