中文翻译暂不可用,显示俄语原文。
preemption overhead
preemption overhead
Определение
Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.
中文翻译暂不可用,显示俄语原文。
Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.