LayerNorm

Определение

Операция нормализации, которая центрирует и масштабирует активации слоя; используется в трансформерах для стабилизации обучения, но требует больше вычислений, чем RMSNorm.

Где встречается

286. Как вы детектируете и фиксите attention sinks в длинных контекстах
311. Что такое CUDA graphs и как они ускоряют LLM инференс
312. Как работает FP8 quantization на H100 (Transformer Engine)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
468. Почему small batch size (32) ухудшает training стабильность
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
672. Что такое residual connections и зачем они нужны в трансформере
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
674. Что такое logit lens (интерпретация скрытых состояний)
675. Как работает dropout и зачем он нужен в LLM (regularization)
676. Что такое residual stream и как он связан с информационным потоком в трансформере
677. Как работает forward pass LLM от токена до вероятности следующего токена
714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
715. Hyena как заменить attention на свертки, сохранив качество
800+ вопросов
60. Настроить гибрид (Mamba + Attention)
65. Реализовать process reward model

LayerNorm

LayerNorm

Определение

Где встречается

Навигация