Поиск

  • wikiAuto Scaling

    # Auto Scaling ## Определение Механизм автоматического изменения количества вычислительных ресурсов в зависимости от нагрузки, например, использование Spot Instances при utilisation < 60…

  • wikicost-aware auto-scaling

    # cost-aware auto-scaling ## Определение Стратегия автоматического масштабирования вычислительных ресурсов с учётом стоимости, например, выбор между spot и on-demand…

  • wikiFlash crowd

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiauto-scaling

    # auto-scaling ## Определение Динамическое изменение количества реплик или ресурсов в зависимости от нагрузки для поддержания производительности и экономии затрат. ## Где…

  • wikiaverageValue

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiminReplicas

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikicustom metric

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikikube-state-metrics

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiscale-up/down

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikitensor-parallel-size

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiStabilizationWindowSeconds

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiNVIDIA GPU Operator

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiServiceMonitor

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikicustom-metrics-apiserver

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiOverprovisioning

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiNVIDIA DCGM Exporter

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?

    …Как проектировать auto-scaling с учётом cost (spot vs on-demand)? ## Краткий тезис Проектирование [[Вики/auto-scaling\|auto-scaling]] с…

  • wikiKEDA

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiKind

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[202. Настроить health checks для LLM|202. Настроить health…

  • wikithrashing

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiReadiness probe

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[198. Настроить multi-region active-passive|198. Настроить multi…

  • wikimemory fragmentation

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiHorizontal Pod Autoscaler

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiLifecycle hooks

    # Lifecycle hooks ## Определение Механизм AWS Auto Scaling, добавляющий задержку перед завершением инстанса для выполнения graceful shutdown. Используется для корректного завершения…

  • wikiCold-start

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[195. Реализовать blue-green deployment для RAG|195. Реализовать…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling для vLLM

    …Ключевой результат Рабочая конфигурация [[Вики/auto-scaling\|auto-scaling]] с HPA/KEDA, которая стабилизирует [[Вики/GPU utilization\|GPU utilization]] в…

  • wikihelm

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • wikiGPU utilization

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[92. Профилировать GPU utilization падение|92. Профилировать GPU utilization…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling с учётом cost

    …Настроить auto-scaling с учётом cost ## 1. Цель задачи Научиться проектировать и настраивать систему автоматического масштабирования ([[Вики/auto-scaling\|auto

  • wikiPrometheus + Grafana

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[77. Реализовать cost-aware routing|77. Реализовать cost-aware…

  • wikiLocust

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[85. Спроектировать escalation system|85. Спроектировать escalation system]] - [[86…

  • answerЧто такое autoscaling inference и как его настроить?

    …Cooldown (стабилизация) и масштабирование При [[Вики/auto-scaling\|autoscaling]] важно избежать [[Вики/thrashing\|thrashing]] — частых колебаний числа реплик, когда нагрузка…

  • answerКак вы проектируете disaster recovery для LLM системы при сбое региона?

    …При отказе региона compute-группа в другом регионе должна быть готова принять трафик. [[Вики/auto-scaling\|Auto-scaling]] и [[Вики…

  • answerКак вы деплоите LLM на spot instances в облаке?

    …Дополнительные лучшие практики - Пул с разными типами spot — использовать несколько семейств инстансов (например, p4d, g5, inf2) в одной auto-scaling

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить autoscaling для LLM сервера

    …Цель задачи Научиться проектировать и внедрять [[Вики/auto-scaling\|автоматическое масштабирование]] ([[Вики/auto-scaling\|автоскейлинг]]) для сервера инференса большой языковой…

  • answerКак вы выбираете между online и batch инференсом для LLM?

    …Инфраструктура | GPU с низкой задержкой (A100, H100), часто с auto-scaling | Кластеры GPU, batch-планировщики (SLURM, Kubernetes) | Примеры - **Online**: Чат…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …Поддерживается vLLM через `--tensor-parallel-size 2`. **Pipeline parallelism** — реже, так как вводит задержку (pipeline bubbles). [[Вики/auto-scaling\|Auto

  • answerЧто делать, если embedding pipeline отстаёт от ingestion (backpressure)?

    …Решения включают буферизацию через очереди сообщений, [[Вики/auto-scaling\|автомасштабирование]] воркеров, приоритизацию документов, [[Вики/fallback model\|graceful degradation]] и постоянный…

  • answerЧто такое «cost attribution» (какой компонент сколько стоит)?

    …Как проектировать auto-scaling с учётом cost (spot vs on-demand)\|781]] - Следующий: [[783. Как сравнивать cost efficiency разных LLM…

  • answerКак вы делаете load shedding при перегрузке LLM сервера?

    …размыкание | После 50% 503 за 10 сек — break | | [[Вики/auto-scaling\|Autoscaling]] | Увеличить мощность | Добавление инстансов | Kubernetes HPA | --- ## 8. Мониторинг…

  • answerКак тест-тайм компьютинг меняет MLOps?

    …Нужны эластичные кластеры ([[Вики/Kubernetes\|Kubernetes]] с [[Вики/auto-scaling\|autoscaling]]). - [[Вики/Serverless compute\|Serverless compute]]: для агентных циклов удобны…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить hot shard detection

    …distributed cache | | 315 | Prometheus monitoring of cache systems | | 417 | Auto-scaling and rebalancing strategies | | 502 | Handling data skew in sharded…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить spot vs on-demand для batch inference

    …best practices | | 203 | Batch inference pipeline design | | 267 | Cost-aware auto-scaling для ML | | 381 | Мониторинг и алертинг для batch…

  • answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?

    …Как проектировать auto-scaling с учётом cost (spot vs on-demand)\|781]] - Индекс: [[00. Индекс разборов]]

  • answerКак вы деплоите LLM на spot instances в облаке?

    …Instance Interruption Notice). - [[Вики/Lifecycle hooks\|Lifecycle hooks]] (AWS Auto Scaling) — задержка перед завершением для graceful shutdown. - [[Вики/health check…

  • answerЧто такое end-to-end backpressure в LLM пайплайне и как его реализовать?

    …Как вы делаете canary analysis для новой LLM модели\|430]] | Как настроить auto-scaling для LLM сервиса? | | [[431. Почему LLM…

  • answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.

    …tasks{id\|REST API]] (совместим с OpenAI API). - [[Вики/auto-scaling\|Autoscaling]] на основе длины очереди запросов. Пример запуска vLLM…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить reserved instances для постоянной нагрузки

    …если utilisation < 60% — возможно лучше использовать Spot Instances или Auto Scaling. Обоснуйте, что RI невыгодны, и предложите альтернативу. | | Upfront платёж…

  • answerКак вы делаете blue-green deployment для RAG системы с zero downtime?

    …Вики/cost\|Стоимость]] | Два полных окружения = двойные затраты | Использовать auto-scaling для green (минимальные ресурсы до переключения) | --- ## 8. Пример: blue…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    …on-demand|Cost -60% при reliability 99%| |4|Настроить auto-scaling для vLLM|Horizontal scaling по GPU utilization|Утилизация 70…