Grouped-Query Attention
Grouped-Query Attention
Определение
Вариант механизма внимания, в котором несколько голов запросов разделяют общие группы ключей и значений (KV). Компромисс между Multi-Head Attention и Multi-Query Attention, уменьшает размер KV cache при сохранении качества; используется в Llama-2/3.
Где встречается
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 281. Что такое sliding window attention и зачем он в Mistral
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 629. Как работает sliding window attention в Mistral и Longformer
- 640. Как работает Multi-query attention (MQA) для long context
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 800+ вопросов