FlexGen

Определение

Библиотека для offloading KV cache на CPU или диск, позволяющая обрабатывать длинные контексты при ограниченной памяти GPU.