Unified Paging

Unified Paging

Определение

Unified Paging — это техника управления памятью, при которой KV-кэш всех активных LoRA-адаптеров размещается в едином адресном пространстве. Вместо выделения отдельных областей памяти для каждого адаптера используется общий пул страниц, что позволяет эффективно распределять ресурсы между разными запросами. Такой подход уменьшает фрагментацию памяти и накладные расходы на переключение между адаптерами, ускоряя инференс при одновременном обслуживании множества LoRA.

Где встречается

Навигация