Swap-based preemption
Swap-based preemption
Определение
Вид вытеснения запроса, при котором его блоки KV-кэша выгружаются на CPU для последующего восстановления, освобождая GPU-память.
Вид вытеснения запроса, при котором его блоки KV-кэша выгружаются на CPU для последующего восстановления, освобождая GPU-память.