FlashAttention

FlashAttention

Определение

Memory-efficient механизм внимания с IO-aware дизайном, использующий tiling, recomputation и kernel fusion для снижения сложности по памяти с O(n²) до O(n). Поддерживает длинные контексты до 1M токенов.

Где встречается

Навигация