Running queue
Running queue
Определение
Очередь запросов, которые в данный момент генерируют токены и имеют выделенные блоки KV cache; обновляется на каждой итерации.
Где встречается
- 438. Что такое continuous batching Как реализовано в vLLM
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов