Horizontal Pod Autoscaler
Horizontal Pod Autoscaler
Определение
Компонент Kubernetes для автоматического масштабирования количества подов на основе метрик, например, latency или GPU utilization.
Где встречается
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 411. Как вы проектируете backpressure в LLM serving системе
- 825. Что такое autoscaling inference и как его настроить
- Практика
- 800+ вопросов
- 72. Настроить capacity planning для GPU кластера
- 74. Настроить auto-scaling для vLLM