English translation is not available yet. Showing Russian content.
Horizontal Pod Autoscaler
Horizontal Pod Autoscaler
Определение
Компонент Kubernetes для автоматического масштабирования количества подов на основе метрик, например, latency или GPU utilization.
Где встречается
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 411. Как вы проектируете backpressure в LLM serving системе
- 825. Что такое autoscaling inference и как его настроить
- Практика
- 800+ вопросов
- 72. Настроить capacity planning для GPU кластера
- 74. Настроить auto-scaling для vLLM