Attention heads

Attention heads

Определение

Параллельные модули в слое трансформера, каждый из которых реализует собственный механизм внимания; в MQA все heads делят общие KV-пары, в GQA — группы heads делят KV.

Где встречается

Навигация