Memory-efficient attention

Определение

Совокупность алгоритмов (FlashAttention, PagedAttention) и системных оптимизаций, позволяющих обрабатывать сверхдлинные последовательности на ограниченном числе GPU за счёт снижения потребления памяти.

Где встречается

650. Что такое memory-efficient attention для long context на 8x H100
800+ вопросов

Memory-efficient attention

Memory-efficient attention

Определение

Где встречается

Навигация