中文翻译暂不可用,显示俄语原文。

preemption

preemption

Определение

Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно использовать GPU, вытесняя низкоприоритетные задачи.

Где встречается

Навигация