English translation is not available yet. Showing Russian content.
preemption overhead
preemption overhead
Определение
Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.