Многоголовое внимание

Определение

Многоголовое внимание (Multi-Head Attention) — это механизм, расширяющий обычное внимание, позволяя модели одновременно учитывать информацию из разных подпространств представлений. Вместо одного вычисления внимания выполняются несколько «голов» внимания параллельно, каждая со своими собственными матрицами проекций Query, Key и Value. Результаты всех голов затем конкатенируются и проецируются в исходное пространство, что повышает выразительность модели. В архитектуре Transformer маска (padding mask) обычно имеет размер [batch_size, 1, 1, seq_len] и расширяется для всех голов и позиций запросов, чтобы игнорировать паддинговые токены.

Где встречается

932. Объясните Attention как взвешенную сумму. Зачем нужна маска (padding mask) в энкодере

Многоголовое внимание

Многоголовое внимание

Определение

Где встречается

Навигация