English translation is not available yet. Showing Russian content.
Block Diagonal Mask
Block Diagonal Mask
Определение
Block Diagonal Mask — это маска внимания, применяемая при packing (объединении коротких последовательностей разной длины в один батч). Она блокирует внимание между токенами из разных последовательностей, разрешая взаимодействие только внутри каждой отдельной последовательности. Такая маска позволяет эффективно обрабатывать множество независимых примеров за один проход, экономя память и ускоряя fine-tuning.