English translation is not available yet. Showing Russian content.

Flash Attention 2

Flash Attention 2

Определение

Оптимизированная реализация механизма внимания, снижающая вычислительные затраты и задержку за счёт параллелизма по головам и меньшего использования регистров. Поддерживает multi-query attention и служит базой для FlashAttention-3.

Где встречается

Навигация