English translation is not available yet. Showing Russian content.
BatchNorm
BatchNorm
Определение
Слой нормализации, который стабилизирует распределение активаций, нормализуя их по мини-батчу; менее подходит для трансформеров по сравнению с LayerNorm.
Где встречается
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)