Preemption by swap
Preemption by swap
Определение
Стратегия вытеснения, при которой KV cache выгружается из GPU в CPU RAM при нехватке памяти, а при возобновлении загружается обратно.
Стратегия вытеснения, при которой KV cache выгружается из GPU в CPU RAM при нехватке памяти, а при возобновлении загружается обратно.