Unified Paging
Unified Paging
Определение
Unified Paging — это техника управления памятью, при которой KV-кэш всех активных LoRA-адаптеров размещается в едином адресном пространстве. Вместо выделения отдельных областей памяти для каждого адаптера используется общий пул страниц, что позволяет эффективно распределять ресурсы между разными запросами. Такой подход уменьшает фрагментацию памяти и накладные расходы на переключение между адаптерами, ускоряя инференс при одновременном обслуживании множества LoRA.