中文翻译暂不可用,显示俄语原文。
preemption
preemption
Определение
Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно использовать GPU, вытесняя низкоприоритетные задачи.
Где встречается
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- 837. Как работает paged attention (детально)
- 843. Что такое continuous batching и как оно влияет на throughput
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- 850. Как работают inference schedulers (FCFS, Priority, Fairness)
- Практика
- 800+ вопросов
- 73. Сравнить spot vs on-demand для batch inference
- 205. Настроить GPU scheduling для multi-tenant
- 219. Сравнить inference schedulers (FCFS vs Priority)
- 293. Настроить conflict resolution между агентами