English translation is not available yet. Showing Russian content.
FlexGen
FlexGen
Определение
Библиотека для offloading KV cache на CPU или диск, позволяющая обрабатывать длинные контексты при ограниченной памяти GPU.
Где встречается
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера