Block Diagonal Attention

Block Diagonal Attention

Определение

Block Diagonal Attention — это механизм маскирования в преобразователях, при котором матрица внимания строится в виде блочно-диагональной структуры. Каждый блок соответствует отдельной последовательности из упакованного батча (packing), а нулевые веса за пределами блоков предотвращают взаимодействие между токенами разных примеров. Это позволяет эффективно обрабатывать последовательности разной длины в одном тензоре без потери информации о границах.

Где встречается

Навигация