中文翻译暂不可用,显示俄语原文。

preemption overhead

preemption overhead

Определение

Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.

Где встречается

Навигация