中文翻译暂不可用,显示俄语原文。
Memory-efficient attention
Memory-efficient attention
Определение
Совокупность алгоритмов (FlashAttention, PagedAttention) и системных оптимизаций, позволяющих обрабатывать сверхдлинные последовательности на ограниченном числе GPU за счёт снижения потребления памяти.