English translation is not available yet. Showing Russian content.

Attention heads

Attention heads

Определение

Параллельные модули в слое трансформера, каждый из которых реализует собственный механизм внимания; в MQA все heads делят общие KV-пары, в GQA — группы heads делят KV.

Где встречается

Навигация