preemption overhead
preemption overhead
Определение
Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.
Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.