Grouped-Query Attention

Grouped-Query Attention

Определение

Вариант механизма внимания, в котором несколько голов запросов разделяют общие группы ключей и значений (KV). Компромисс между Multi-Head Attention и Multi-Query Attention, уменьшает размер KV cache при сохранении качества; используется в Llama-2/3.

Где встречается

Навигация