English translation is not available yet. Showing Russian content.
Preemption by swap
Preemption by swap
Определение
Стратегия вытеснения, при которой KV cache выгружается из GPU в CPU RAM при нехватке памяти, а при возобновлении загружается обратно.