Kubernetes
Kubernetes
Определение
Платформа оркестрации контейнеров, используемая для развёртывания, масштабирования и управления LLM-серверами с поддержкой graceful shutdown и health checks.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 69. Как вы организуете CICD для RAG-пайплайна
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
- 165. Как тест-тайм компьютинг меняет MLOps
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
- 251. Как вы деплоите LLM на spot instances в облаке
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 385. Как вы автоматизируете rollback при деградации качества
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
- 410. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 413. Что такое sidecar pattern для LLM observability и как его реализовать
- 421. Как вы проектируете disaster recovery для LLM системы при сбое региона
- 738. Назовите 12+ слоёв эталонной архитектуры Harness.
- 896. Как сделать агента самовосстанавливающимся (self-healing)
- Практика
- 800+ вопросов
- 72. Настроить capacity planning для GPU кластера
- 80. Реализовать cost attribution per feature
- 192. Настроить autoscaling для LLM сервера
- 198. Настроить multi-region active-passive
- 205. Настроить GPU scheduling для multi-tenant
- 250. Полный production агент
- 264. Настроить health checks для всех компонентов