KEDA
KEDA
Определение
Событийно-ориентированный автоскалер для Kubernetes, масштабирующий поды по метрикам из SQS, Kafka, HTTP-эндпоинтов или custom triggers. Позволяет точно адаптировать ресурсы LLM-сервера под нагрузку.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 825. Что такое autoscaling inference и как его настроить
- 72. Настроить capacity planning для GPU кластера
- 74. Настроить auto-scaling для vLLM
- 192. Настроить autoscaling для LLM сервера