FlexGen
FlexGen
Определение
Библиотека для offloading KV cache на CPU или диск, позволяющая обрабатывать длинные контексты при ограниченной памяти GPU.
Где встречается
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера