Padding mask
Padding mask
Определение
Padding mask — это бинарная маска, применяемая в механизме внимания (attention) для обнуления весов внимания, соответствующих токенам-заполнителям (PAD). Это предотвращает учёт пустых позиций при агрегации контекста, гарантируя, что модель не обрабатывает искусственно добавленные токены как значимые.