Grouped-Query Attention

Определение

Вариант механизма внимания, в котором несколько голов запросов разделяют общие группы ключей и значений (KV). Компромисс между Multi-Head Attention и Multi-Query Attention, уменьшает размер KV cache при сохранении качества; используется в Llama-2/3.

Где встречается

277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
281. Что такое sliding window attention и зачем он в Mistral
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
436. В чем разница между prefill и decode stage в LLM инференсе
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
629. Как работает sliding window attention в Mistral и Longformer
640. Как работает Multi-query attention (MQA) для long context
641. Что такое grouped-query attention (GQA) как компромисс для long context
642. Как вы реализуете KV cache для 1M токенов на 8x H100
712. Что такое Cooperative Groups в CUDA и как использовать для attention
800+ вопросов

Grouped-Query Attention

Grouped-Query Attention

Определение

Где встречается

Навигация