Memory-efficient attention
Memory-efficient attention
Определение
Совокупность алгоритмов (FlashAttention, PagedAttention) и системных оптимизаций, позволяющих обрабатывать сверхдлинные последовательности на ограниченном числе GPU за счёт снижения потребления памяти.