中文翻译暂不可用,显示俄语原文。

Attention heads

Attention heads

Определение

Параллельные модули в слое трансформера, каждый из которых реализует собственный механизм внимания; в MQA все heads делят общие KV-пары, в GQA — группы heads делят KV.

Где встречается

Навигация