QK-normalization
QK-normalization
Определение
Метод нормализации запросов (Q) и ключей (K) перед вычислением attention, например с помощью LayerNorm. Стабилизирует распределение внимания и служит альтернативой масштабированию на √d_k.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования