pre-normalization
pre-normalization
Определение
Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это улучшает стабильность обучения глубоких сетей, позволяя градиентам течь через identity-соединение.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов