post-norm

Определение

Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный к затуханию градиентов.

Где встречается

286. Как вы детектируете и фиксите attention sinks в длинных контекстах
654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
672. Что такое residual connections и зачем они нужны в трансформере
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
676. Что такое residual stream и как он связан с информационным потоком в трансформере
677. Как работает forward pass LLM от токена до вероятности следующего токена
800+ вопросов

post-norm

post-norm

Определение

Где встречается

Навигация