Поиск

wikiAuto Scaling
# Auto Scaling ## Определение Механизм автоматического изменения количества вычислительных ресурсов в зависимости от нагрузки, например, использование Spot Instances при utilisation < 60…
wikicost-aware auto-scaling
# cost-aware auto-scaling ## Определение Стратегия автоматического масштабирования вычислительных ресурсов с учётом стоимости, например, выбор между spot и on-demand…
wikiFlash crowd
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiauto-scaling
# auto-scaling ## Определение Динамическое изменение количества реплик или ресурсов в зависимости от нагрузки для поддержания производительности и экономии затрат. ## Где…
wikiaverageValue
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiminReplicas
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikicustom metric
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikikube-state-metrics
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiscale-up/down
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikitensor-parallel-size
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiStabilizationWindowSeconds
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiNVIDIA GPU Operator
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiServiceMonitor
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikicustom-metrics-apiserver
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiOverprovisioning
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiNVIDIA DCGM Exporter
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?
…Как проектировать auto-scaling с учётом cost (spot vs on-demand)? ## Краткий тезис Проектирование [[Вики/auto-scaling\|auto-scaling]] с…
wikiKEDA
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiKind
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[202. Настроить health checks для LLM|202. Настроить health…
wikithrashing
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiReadiness probe
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[198. Настроить multi-region active-passive|198. Настроить multi…
wikimemory fragmentation
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiHorizontal Pod Autoscaler
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiLifecycle hooks
# Lifecycle hooks ## Определение Механизм AWS Auto Scaling, добавляющий задержку перед завершением инстанса для выполнения graceful shutdown. Используется для корректного завершения…
wikiCold-start
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[195. Реализовать blue-green deployment для RAG|195. Реализовать…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling для vLLM
…Ключевой результат Рабочая конфигурация [[Вики/auto-scaling\|auto-scaling]] с HPA/KEDA, которая стабилизирует [[Вики/GPU utilization\|GPU utilization]] в…
wikihelm
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
wikiGPU utilization
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[92. Профилировать GPU utilization падение|92. Профилировать GPU utilization…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling с учётом cost
…Настроить auto-scaling с учётом cost ## 1. Цель задачи Научиться проектировать и настраивать систему автоматического масштабирования ([[Вики/auto-scaling\|auto…
wikiPrometheus + Grafana
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[77. Реализовать cost-aware routing|77. Реализовать cost-aware…
wikiLocust
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[85. Спроектировать escalation system|85. Спроектировать escalation system]] - [[86…
answerЧто такое autoscaling inference и как его настроить?
…Cooldown (стабилизация) и масштабирование При [[Вики/auto-scaling\|autoscaling]] важно избежать [[Вики/thrashing\|thrashing]] — частых колебаний числа реплик, когда нагрузка…
answerКак вы проектируете disaster recovery для LLM системы при сбое региона?
…При отказе региона compute-группа в другом регионе должна быть готова принять трафик. [[Вики/auto-scaling\|Auto-scaling]] и [[Вики…
answerКак вы деплоите LLM на spot instances в облаке?
…Дополнительные лучшие практики - Пул с разными типами spot — использовать несколько семейств инстансов (например, p4d, g5, inf2) в одной auto-scaling…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить autoscaling для LLM сервера
…Цель задачи Научиться проектировать и внедрять [[Вики/auto-scaling\|автоматическое масштабирование]] ([[Вики/auto-scaling\|автоскейлинг]]) для сервера инференса большой языковой…
answerКак вы выбираете между online и batch инференсом для LLM?
…Инфраструктура | GPU с низкой задержкой (A100, H100), часто с auto-scaling | Кластеры GPU, batch-планировщики (SLURM, Kubernetes) | Примеры - **Online**: Чат…
answerКак вы разворачиваете LLM в production (self-hosted)?
…Поддерживается vLLM через `--tensor-parallel-size 2`. **Pipeline parallelism** — реже, так как вводит задержку (pipeline bubbles). [[Вики/auto-scaling\|Auto…
answerЧто делать, если embedding pipeline отстаёт от ingestion (backpressure)?
…Решения включают буферизацию через очереди сообщений, [[Вики/auto-scaling\|автомасштабирование]] воркеров, приоритизацию документов, [[Вики/fallback model\|graceful degradation]] и постоянный…
answerЧто такое «cost attribution» (какой компонент сколько стоит)?
…Как проектировать auto-scaling с учётом cost (spot vs on-demand)\|781]] - Следующий: [[783. Как сравнивать cost efficiency разных LLM…
answerКак вы делаете load shedding при перегрузке LLM сервера?
…размыкание | После 50% 503 за 10 сек — break | | [[Вики/auto-scaling\|Autoscaling]] | Увеличить мощность | Добавление инстансов | Kubernetes HPA | --- ## 8. Мониторинг…
answerКак тест-тайм компьютинг меняет MLOps?
…Нужны эластичные кластеры ([[Вики/Kubernetes\|Kubernetes]] с [[Вики/auto-scaling\|autoscaling]]). - [[Вики/Serverless compute\|Serverless compute]]: для агентных циклов удобны…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить hot shard detection
…distributed cache | | 315 | Prometheus monitoring of cache systems | | 417 | Auto-scaling and rebalancing strategies | | 502 | Handling data skew in sharded…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить spot vs on-demand для batch inference
…best practices | | 203 | Batch inference pipeline design | | 267 | Cost-aware auto-scaling для ML | | 381 | Мониторинг и алертинг для batch…
answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
…Как проектировать auto-scaling с учётом cost (spot vs on-demand)\|781]] - Индекс: [[00. Индекс разборов]]
answerКак вы деплоите LLM на spot instances в облаке?
…Instance Interruption Notice). - [[Вики/Lifecycle hooks\|Lifecycle hooks]] (AWS Auto Scaling) — задержка перед завершением для graceful shutdown. - [[Вики/health check…
answerЧто такое end-to-end backpressure в LLM пайплайне и как его реализовать?
…Как вы делаете canary analysis для новой LLM модели\|430]] | Как настроить auto-scaling для LLM сервиса? | | [[431. Почему LLM…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…tasks{id\|REST API]] (совместим с OpenAI API). - [[Вики/auto-scaling\|Autoscaling]] на основе длины очереди запросов. Пример запуска vLLM…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить reserved instances для постоянной нагрузки
…если utilisation < 60% — возможно лучше использовать Spot Instances или Auto Scaling. Обоснуйте, что RI невыгодны, и предложите альтернативу. | | Upfront платёж…
answerКак вы делаете blue-green deployment для RAG системы с zero downtime?
…Вики/cost\|Стоимость]] | Два полных окружения = двойные затраты | Использовать auto-scaling для green (минимальные ресурсы до переключения) | --- ## 8. Пример: blue…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…on-demand|Cost -60% при reliability 99%| |4|Настроить auto-scaling для vLLM|Horizontal scaling по GPU utilization|Утилизация 70…