QK-normalization

QK-normalization

Определение

Метод нормализации запросов (Q) и ключей (K) перед вычислением attention, например с помощью LayerNorm. Стабилизирует распределение внимания и служит альтернативой масштабированию на √d_k.

Где встречается

Навигация