English translation is not available yet. Showing Russian content.
Attention heads
Attention heads
Определение
Параллельные модули в слое трансформера, каждый из которых реализует собственный механизм внимания; в MQA все heads делят общие KV-пары, в GQA — группы heads делят KV.
Где встречается
- 193. Что такое «Clone-Structured Causal Graphs» (CSCG) и как они связаны со схемами
- 640. Как работает Multi-query attention (MQA) для long context
- 800+ вопросов