Concurrent requests
Concurrent requests
Определение
Количество одновременно обрабатываемых запросов. Влияет на использование памяти и может вызывать stampede; используется при load shedding.
Где встречается
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 99. Написать postmortem для cache stampede