preemption

preemption

Определение

Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно использовать GPU, вытесняя низкоприоритетные задачи.

Где встречается

Навигация