RMSNorm
RMSNorm
Определение
Упрощённая версия LayerNorm без центрирования, использующая только среднеквадратичное значение; быстрее на 10–15% и применяется в моделях Llama и Mistral.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов