English translation is not available yet. Showing Russian content.
SGLang
SGLang
Определение
Фреймворк для инференса LLM с RadixAttention и продвинутым управлением KV cache, включая prefix caching между запросами от разных пользователей.
Где встречается
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 442. Что такое prefix caching и когда он эффективен