vanishing gradients

Определение

Проблема обучения глубоких нейросетей, при которой градиенты становятся очень малыми, замедляя или останавливая обучение. В трансформерах решается с помощью residual connections, нормализации и правильной инициализации.

Где встречается

299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
651. Как работает attention математически Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
672. Что такое residual connections и зачем они нужны в трансформере
676. Что такое residual stream и как он связан с информационным потоком в трансформере
800+ вопросов
67. Реализовать latent reasoning (∇-Reasoner)

vanishing gradients

vanishing gradients

Определение

Где встречается

Навигация