Adaptive concurrency
Adaptive concurrency
Определение
Динамическое ограничение числа параллельных запросов на основе наблюдаемой задержки для оптимального использования ресурсов и предотвращения перегрузки.
Где встречается
- 244. Как вы проектируете backpressure в LLM serving системе
- 411. Как вы проектируете backpressure в LLM serving системе