中文翻译暂不可用,显示俄语原文。
RadixAttention
RadixAttention
Определение
Фреймворк SGLang с продвинутым управлением KV-кэшем через radix tree. Реализует механизм повторного использования общего префикса в multi-turn диалогах. Увеличивает эффективность инференса за счёт кэширования ранее вычисленных attention-состояний.
Где встречается
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 442. Что такое prefix caching и когда он эффективен