中文翻译暂不可用,显示俄语原文。

Memory-efficient attention

Memory-efficient attention

Определение

Совокупность алгоритмов (FlashAttention, PagedAttention) и системных оптимизаций, позволяющих обрабатывать сверхдлинные последовательности на ограниченном числе GPU за счёт снижения потребления памяти.

Где встречается

Навигация