attention_mask

aliases: ["attention mask", "padding mask"] tags: [wiki, термин, nlp]

attention_mask

Определение

attention_mask — это бинарный тензор, используемый в механизме self-attention трансформеров для указания, какие позиции входной последовательности являются реальными токенами, а какие — паддингом. Маска предотвращает учёт фиктивных позиций (например, добавленных для выравнивания длины) при вычислении внимания, тем самым исключая их влияние на выход модели. В некоторых архитектурах (например, в декодере) маска также применяется для запрета внимания к будущим токенам (causal mask).

Где встречается

Навигация