QK-normalization

Определение

Метод нормализации запросов (Q) и ключей (K) перед вычислением attention, например с помощью LayerNorm. Стабилизирует распределение внимания и служит альтернативой масштабированию на √d_k.

Где встречается

286. Как вы детектируете и фиксите attention sinks в длинных контекстах
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования

QK-normalization

QK-normalization

Определение

Где встречается

Навигация