Multi-Query Attention

Определение

Механизм внимания, где все головы запросов используют общий набор ключей-значений для экономии KV-кеша.