FlashAttention-2
FlashAttention-2
Определение
FlashAttention-2 — это усовершенствованная версия алгоритма FlashAttention, предназначенная для эффективного вычисления механизма внимания в трансформерах. Она использует тайлинг и перекомпоновку операций, что значительно снижает потребление памяти и ускоряет обработку длинных последовательностей за счёт более полного использования кэша GPU.