Attention mask
Attention mask
Определение
Маска внимания — это бинарная или непрерывная матрица, которая механизму внимания (self-attention) в трансформерах указывает, на какие токены может "смотреть" текущий токен при вычислении весов внимания. Типичные применения: игнорирование padding-токенов (чтобы они не влияли на предсказание) и предотвращение "заглядывания в будущее" в декодере (causal mask). В контексте packing (упаковки последовательностей разной длины в один батч) маска внимания настраивается так, чтобы внутри каждого сегмента была стандартная диагональная маска, а между подсегментами ставится -inf, чтобы механизм внимания не смешивал их.