中文翻译暂不可用,显示俄语原文。
vanishing gradients
vanishing gradients
Определение
Проблема обучения глубоких нейросетей, при которой градиенты становятся очень малыми, замедляя или останавливая обучение. В трансформерах решается с помощью residual connections, нормализации и правильной инициализации.
Где встречается
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 672. Что такое residual connections и зачем они нужны в трансформере
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 800+ вопросов
- 67. Реализовать latent reasoning (∇-Reasoner)