Attention mask

Определение

Маска внимания — это бинарная или непрерывная матрица, которая механизму внимания (self-attention) в трансформерах указывает, на какие токены может "смотреть" текущий токен при вычислении весов внимания. Типичные применения: игнорирование padding-токенов (чтобы они не влияли на предсказание) и предотвращение "заглядывания в будущее" в декодере (causal mask). В контексте packing (упаковки последовательностей разной длины в один батч) маска внимания настраивается так, чтобы внутри каждого сегмента была стандартная диагональная маска, а между подсегментами ставится -inf, чтобы механизм внимания не смешивал их.

Где встречается

976. Как вы делаете fine-tuning на последовательностях разной длины (packing, dynamic batching)

Attention mask

Attention mask

Определение

Где встречается

Навигация