KEDA

Определение

Событийно-ориентированный автоскалер для Kubernetes, масштабирующий поды по метрикам из SQS, Kafka, HTTP-эндпоинтов или custom triggers. Позволяет точно адаптировать ресурсы LLM-сервера под нагрузку.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
825. Что такое autoscaling inference и как его настроить
72. Настроить capacity planning для GPU кластера
74. Настроить auto-scaling для vLLM
192. Настроить autoscaling для LLM сервера

KEDA

KEDA

Определение

Где встречается

Навигация