RadixAttention
RadixAttention
Определение
Фреймворк SGLang с продвинутым управлением KV-кэшем через radix tree. Реализует механизм повторного использования общего префикса в multi-turn диалогах. Увеличивает эффективность инференса за счёт кэширования ранее вычисленных attention-состояний.
Где встречается
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 442. Что такое prefix caching и когда он эффективен