Multi-Query Attention

Multi-Query Attention

Определение

Механизм внимания, где все головы запросов используют общий набор ключей-значений для экономии KV-кеша.

Где встречается

Навигация