Block Diagonal Attention
Block Diagonal Attention
Определение
Block Diagonal Attention — это механизм маскирования в преобразователях, при котором матрица внимания строится в виде блочно-диагональной структуры. Каждый блок соответствует отдельной последовательности из упакованного батча (packing), а нулевые веса за пределами блоков предотвращают взаимодействие между токенами разных примеров. Это позволяет эффективно обрабатывать последовательности разной длины в одном тензоре без потери информации о границах.