Многоголовое внимание
Многоголовое внимание
Определение
Многоголовое внимание (Multi-Head Attention) — это механизм, расширяющий обычное внимание, позволяя модели одновременно учитывать информацию из разных подпространств представлений. Вместо одного вычисления внимания выполняются несколько «голов» внимания параллельно, каждая со своими собственными матрицами проекций Query, Key и Value. Результаты всех голов затем конкатенируются и проецируются в исходное пространство, что повышает выразительность модели. В архитектуре Transformer маска (padding mask) обычно имеет размер [batch_size, 1, 1, seq_len] и расширяется для всех голов и позиций запросов, чтобы игнорировать паддинговые токены.