RingAttention
RingAttention
Определение
RingAttention — метод распределённого вычисления внимания, при котором входная последовательность разбивается на блоки, распределённые по нескольким GPU. Каждый GPU обрабатывает свой блок, а KV‑кэш передаётся по кольцу между устройствами, что позволяет обрабатывать последовательности длиной до миллионов токенов без ограничения по памяти одного GPU.