English translation is not available yet. Showing Russian content.
ring attention
ring attention
Определение
Техника вычисления attention для длинных последовательностей, при которой GPU образуют кольцо и циклически обмениваются блоками KV-кэша.
Где встречается
- 425. Как работает sequence parallelism в контексте LLM
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- 650. Что такое memory-efficient attention для long context на 8x H100
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 800+ вопросов