Multi-Query Attention
Multi-Query Attention
Определение
Механизм внимания, где все головы запросов используют общий набор ключей-значений для экономии KV-кеша.
Где встречается
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 634. Что такое lost in the middle и как это связано с attention sink
- 640. Как работает Multi-query attention (MQA) для long context
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 800+ вопросов