token-level scheduler
token-level scheduler
Определение
Компонент инференс-системы (например, TGI), который на каждой итерации выбирает, какие токены из активных запросов будут участвовать в forward pass. Обычно использует FIFO-очередь с приоритетами.
Где встречается
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- 800+ вопросов