English translation is not available yet. Showing Russian content.

preemption overhead

preemption overhead

Определение

Дополнительные задержки, возникающие из-за вытеснения запросов: время подкачки (swap) или перевычисления (recompute) KV cache. Увеличивает latency и снижает throughput.

Где встречается

Навигация