中文翻译暂不可用,显示俄语原文。
post-norm
post-norm
Определение
Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный к затуханию градиентов.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов