中文翻译暂不可用,显示俄语原文。

Flash Attention 2

Flash Attention 2

Определение

Оптимизированная реализация механизма внимания, снижающая вычислительные затраты и задержку за счёт параллелизма по головам и меньшего использования регистров. Поддерживает multi-query attention и служит базой для FlashAttention-3.

Где встречается

Навигация