Поиск
- wikiAuto Scaling
# Auto Scaling ## Определение Механизм автоматического изменения количества вычислительных ресурсов в зависимости от нагрузки, например, использование Spot Instances при utilisation < 60…
- wikicost-aware auto-scaling
# cost-aware auto-scaling ## Определение Стратегия автоматического масштабирования вычислительных ресурсов с учётом стоимости, например, выбор между spot и on-demand…
- wikiFlash crowd
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiauto-scaling
# auto-scaling ## Определение Динамическое изменение количества реплик или ресурсов в зависимости от нагрузки для поддержания производительности и экономии затрат. ## Где…
- wikiaverageValue
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiminReplicas
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikicustom metric
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikikube-state-metrics
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiscale-up/down
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikitensor-parallel-size
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiStabilizationWindowSeconds
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiNVIDIA GPU Operator
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiServiceMonitor
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikicustom-metrics-apiserver
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiOverprovisioning
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiNVIDIA DCGM Exporter
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?
…Как проектировать auto-scaling с учётом cost (spot vs on-demand)? ## Краткий тезис Проектирование [[Вики/auto-scaling\|auto-scaling]] с…
- wikiKEDA
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiKind
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[202. Настроить health checks для LLM|202. Настроить health…
- wikithrashing
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiReadiness probe
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[198. Настроить multi-region active-passive|198. Настроить multi…
- wikimemory fragmentation
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiHorizontal Pod Autoscaler
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiLifecycle hooks
# Lifecycle hooks ## Определение Механизм AWS Auto Scaling, добавляющий задержку перед завершением инстанса для выполнения graceful shutdown. Используется для корректного завершения…
- wikiCold-start
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[195. Реализовать blue-green deployment для RAG|195. Реализовать…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling для vLLM
…Ключевой результат Рабочая конфигурация [[Вики/auto-scaling\|auto-scaling]] с HPA/KEDA, которая стабилизирует [[Вики/GPU utilization\|GPU utilization]] в…
- wikihelm
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- wikiGPU utilization
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[92. Профилировать GPU utilization падение|92. Профилировать GPU utilization…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling с учётом cost
…Настроить auto-scaling с учётом cost ## 1. Цель задачи Научиться проектировать и настраивать систему автоматического масштабирования ([[Вики/auto-scaling\|auto…
- wikiPrometheus + Grafana
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[77. Реализовать cost-aware routing|77. Реализовать cost-aware…
- wikiLocust
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[85. Спроектировать escalation system|85. Спроектировать escalation system]] - [[86…
- answerЧто такое autoscaling inference и как его настроить?
…Cooldown (стабилизация) и масштабирование При [[Вики/auto-scaling\|autoscaling]] важно избежать [[Вики/thrashing\|thrashing]] — частых колебаний числа реплик, когда нагрузка…
- answerКак вы проектируете disaster recovery для LLM системы при сбое региона?
…При отказе региона compute-группа в другом регионе должна быть готова принять трафик. [[Вики/auto-scaling\|Auto-scaling]] и [[Вики…
- answerКак вы деплоите LLM на spot instances в облаке?
…Дополнительные лучшие практики - Пул с разными типами spot — использовать несколько семейств инстансов (например, p4d, g5, inf2) в одной auto-scaling…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить autoscaling для LLM сервера
…Цель задачи Научиться проектировать и внедрять [[Вики/auto-scaling\|автоматическое масштабирование]] ([[Вики/auto-scaling\|автоскейлинг]]) для сервера инференса большой языковой…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Инфраструктура | GPU с низкой задержкой (A100, H100), часто с auto-scaling | Кластеры GPU, batch-планировщики (SLURM, Kubernetes) | Примеры - **Online**: Чат…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…Поддерживается vLLM через `--tensor-parallel-size 2`. **Pipeline parallelism** — реже, так как вводит задержку (pipeline bubbles). [[Вики/auto-scaling\|Auto…
- answerЧто делать, если embedding pipeline отстаёт от ingestion (backpressure)?
…Решения включают буферизацию через очереди сообщений, [[Вики/auto-scaling\|автомасштабирование]] воркеров, приоритизацию документов, [[Вики/fallback model\|graceful degradation]] и постоянный…
- answerЧто такое «cost attribution» (какой компонент сколько стоит)?
…Как проектировать auto-scaling с учётом cost (spot vs on-demand)\|781]] - Следующий: [[783. Как сравнивать cost efficiency разных LLM…
- answerКак вы делаете load shedding при перегрузке LLM сервера?
…размыкание | После 50% 503 за 10 сек — break | | [[Вики/auto-scaling\|Autoscaling]] | Увеличить мощность | Добавление инстансов | Kubernetes HPA | --- ## 8. Мониторинг…
- answerКак тест-тайм компьютинг меняет MLOps?
…Нужны эластичные кластеры ([[Вики/Kubernetes\|Kubernetes]] с [[Вики/auto-scaling\|autoscaling]]). - [[Вики/Serverless compute\|Serverless compute]]: для агентных циклов удобны…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить hot shard detection
…distributed cache | | 315 | Prometheus monitoring of cache systems | | 417 | Auto-scaling and rebalancing strategies | | 502 | Handling data skew in sharded…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить spot vs on-demand для batch inference
…best practices | | 203 | Batch inference pipeline design | | 267 | Cost-aware auto-scaling для ML | | 381 | Мониторинг и алертинг для batch…
- answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
…Как проектировать auto-scaling с учётом cost (spot vs on-demand)\|781]] - Индекс: [[00. Индекс разборов]]
- answerКак вы деплоите LLM на spot instances в облаке?
…Instance Interruption Notice). - [[Вики/Lifecycle hooks\|Lifecycle hooks]] (AWS Auto Scaling) — задержка перед завершением для graceful shutdown. - [[Вики/health check…
- answerЧто такое end-to-end backpressure в LLM пайплайне и как его реализовать?
…Как вы делаете canary analysis для новой LLM модели\|430]] | Как настроить auto-scaling для LLM сервиса? | | [[431. Почему LLM…
- answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…tasks{id\|REST API]] (совместим с OpenAI API). - [[Вики/auto-scaling\|Autoscaling]] на основе длины очереди запросов. Пример запуска vLLM…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить reserved instances для постоянной нагрузки
…если utilisation < 60% — возможно лучше использовать Spot Instances или Auto Scaling. Обоснуйте, что RI невыгодны, и предложите альтернативу. | | Upfront платёж…
- answerКак вы делаете blue-green deployment для RAG системы с zero downtime?
…Вики/cost\|Стоимость]] | Два полных окружения = двойные затраты | Использовать auto-scaling для green (минимальные ресурсы до переключения) | --- ## 8. Пример: blue…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…on-demand|Cost -60% при reliability 99%| |4|Настроить auto-scaling для vLLM|Horizontal scaling по GPU utilization|Утилизация 70…