ring attention

Определение

Техника вычисления attention для длинных последовательностей, при которой GPU образуют кольцо и циклически обмениваются блоками KV-кэша.