Preemption by recomputation
Preemption by recomputation
Определение
Стратегия вытеснения, при которой запрос полностью удаляется, а при возобновлении перезапускается с начала, пересчитывая KV cache заново.
Стратегия вытеснения, при которой запрос полностью удаляется, а при возобновлении перезапускается с начала, пересчитывая KV cache заново.