LayerNorm
LayerNorm
Определение
Операция нормализации, которая центрирует и масштабирует активации слоя; используется в трансформерах для стабилизации обучения, но требует больше вычислений, чем RMSNorm.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 468. Почему small batch size (32) ухудшает training стабильность
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
- 715. Hyena как заменить attention на свертки, сохранив качество
- 800+ вопросов
- 60. Настроить гибрид (Mamba + Attention)
- 65. Реализовать process reward model