preemption

Определение

Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно использовать GPU, вытесняя низкоприоритетные задачи.

Где встречается

207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
210. Что такое chunked prefill и зачем он нужен
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
826. Как организовать GPU scheduling для multi-tenant LLM serving
837. Как работает paged attention (детально)
843. Что такое continuous batching и как оно влияет на throughput
848. Как работает динамическое бэтчирование в TGI vs vLLM
850. Как работают inference schedulers (FCFS, Priority, Fairness)
Практика
800+ вопросов
73. Сравнить spot vs on-demand для batch inference
205. Настроить GPU scheduling для multi-tenant
219. Сравнить inference schedulers (FCFS vs Priority)
293. Настроить conflict resolution между агентами

preemption

preemption

Определение

Где встречается

Навигация