Поиск

  • wikiFailover time

    # Failover time ## Определение Время переключения (failover time) — длительность переключения трафика между регионами при обнаружении сбоя. ## Где встречается - [[247. Как вы…

  • wikiDNS failover

    # DNS failover ## Определение DNS failover — механизм автоматического переключения трафика на другой регион или сервер при обнаружении сбоя по health check…

  • wikimulti-region failover

    # multi-region failover ## Определение Стратегия обеспечения доступности LLM-системы при отказе целого региона путём автоматического переключения трафика на рабочий регион…

  • wikiFailover threshold

    # Failover threshold ## Определение Порог переключения (failover threshold) — количество последовательных неудачных проверок здоровья, после которого регион считается сбойным и трафик переключается…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить multi-region active-passive для inter-agent communication

    …Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | [[Вики/DNS failover\|DNS-фейловер]] | AWS Route53 / Cloudflare DNS / PowerDNS | Health checks + automatic failover | | Система…

  • answerКак вы делаете multi-region failover с RTO <5 минут?

    …DNS failover и health checks [[Вики/DNS failover\|DNS failover]] — механизм, при котором DNS-сервер (например, AWS Route53, Cloudflare, Azure…

  • wikiprovider switching

    # provider switching ## Определение Автоматическое переключение между LLM провайдерами при превышении лимитов (rate limiting). ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • answerКак вы проектируете disaster recovery для LLM системы при сбое региона?

    …DNS failover и health checks [[Вики/DNS failover\|DNS-фейловер]] — механизм автоматического перенаправления трафика на здоровый [[Вики/AWS Region\|регион…

  • wikiRedis Sentinel

    # Redis Sentinel ## Определение Система для автоматического failover Redis и разрешения split-brain, обеспечивающая высокую доступность без единой точки отказа. ## Где…

  • wikiRoute53

    # Route53 ## Определение DNS-сервис AWS, используемый для настройки health checks и primary/secondary failover при проектировании disaster recovery. ## Где встречается…

  • answerКак вы проектируете disaster recovery для LLM системы при сбое региона?

    …DNS failover и маршрутизация трафика Используются Global Traffic Manager ([[Вики/Route53\|AWS Route53]], Azure Traffic Manager, GCP [[Вики/Облако\|Cloud…

  • wikidisaster recovery

    # disaster recovery ## Определение Комплекс мер по восстановлению работы LLM-системы после сбоя инфраструктуры, включая failover и репликацию данных. ## Где встречается…

  • wikifallback model

    # fallback model ## Определение Резервная модель или стратегия (например, общая LLM без RAG) при отсутствии ответа от основной модели или документов…

  • answerКак вы проектируете multi-region active-active для LLM API?

    …Over-provisioning увеличивает стоимость. | | Сложность | Необходимость синхронизации кэша, мониторинга здоровья, автоматического failover. Требует DevOps-экспертизы. | | Cache miss при failover | Временное…

  • answerКак организовать multi-region active-passive для LLM API?

    …return {"status": "unhealthy"}, 503 ``` ### 4.2 Механизм failover Используется DNS-основанный failover (например, Route53 health checks): 1. Активный регион имеет…

  • wikiGlobal load balancer

    …с учётом геолокации, задержки и health checks, с автоматическим failover. ## Где встречается - [[247. Как вы проектируете multi-region active-active…

  • answerКак вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?

    …Автоматическое переключение провайдера (OpenAI → Anthropic → Groq) [[Вики/fallback model\|Failover strategy]] — если один провайдер исчерпал лимит или недоступен, система автоматически…

  • wikiActive-passive

    # Active-passive ## Определение Архитектура с одним активным регионом и одним или несколькими резервными (standby), которые активируются при сбое; переключение занимает…

  • answerКак вы проектируете multi-region active-active для LLM API?

    …Обработка отказов (Failover) При падении региона: 1. Балансировщик перестаёт отправлять туда трафик (health check провален). 2. Запросы перенаправляются в другой…

  • wikiRouter

    # Router ## Определение Компонент, который классифицирует входящий запрос и направляет его к соответствующему обработчику (модели, агенту, эксперту MoE) на основе сложности…

  • answerКак вы делаете disaster recovery с RPO <1 минута?

    …Point-in-time recovery | | Оркестрация | Kubernetes + Istio | Traffic splitting, failover | **Пример использования etcd для состояния агентов:** ```go // Запись состояния агента…

  • wikirobustness

    # robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…

  • answerКак вы обрабатываете production incident с LLM (playbook)?

    …Как вы делаем multi-region failover с RTO 5 минут\|387]] | Мониторинг LLM-систем | | [[388. Что такое SLI (Service Level…

  • answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?

    …Как вы делаем multi-region failover с RTO 5 минут\|387]] | Что такое SLO и SLA для AI-систем? | | [[389…

  • answerКакие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)?

    …При падении мастера реплика становится мастером ([[Вики/fallback model\|failover]]). Обычно используют 2–3 копии. - **[[Вики/AOF\|Persistence]] ([[Вики/Persistence…

  • answerЧто такое graceful degradation в multi-agent системах?

    …Противоположность — **[[Вики/fail-fast\|fail-fast]]** (немедленное падение при любой ошибке) и **[[Вики/fallback model\|failover]]** (полное [[Вики/fallback model…

  • answerКак вы делаете A/B тестирование двух моделей в production?

    …в ответе | | Инфраструктурные сбои | Падение пода новой модели | Автоматический failover на control, алерт | ## 9. Пет-проект для закрепления [[Вики/Task…

  • answerКак вы автоматизируете rollback при деградации качества?

    …Как вы делаем multi-region failover с RTO 5 минут\|387]] | Как вы реализуете canary deployment для агентов? | | [[388. Что…

  • answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?

    …task.failover_to_on_demand() # перезапуск на on-demand sys.exit(0) signal.signal(signal.SIGTERM, graceful_termination) ``` ## 4. Cost…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для cache stampede

    …Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 42 | Redis replication and failover | | 101 | Cache invalidation strategies | | 205 | Distributed locking (Redis…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать fallback-цепь (Агент А → Агент Б → человек)

    …стратегии fallback используются в production RAG? | | 67 | Чем отличается failover от fallback в контексте LLM-агентов? | | 104 | Как реализовать human…

  • wikiИндекс терминов

    …Вики/failed trajectory|failed trajectory]] - [[Вики/Failover threshold|Failover threshold]] - [[Вики/Failover time|Failover time]] - [[Вики/failure analysis|failure analysis…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    …работает (хуже) | | 198 | Настроить multi-region active-passive | DNS failover, репликация кэша | RTO < 5 минут | | 199 | Реализовать distributed lock для…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Как вы делаем multi-region failover с RTO <5 минут?** > *Ответ:* Active-passive: основной регион, пассивный warm. DNS failover при…

  • indexИндекс разборов

    …Как вы делаем multi-region failover с RTO 5 минут\|387. Как вы делаем multi-region failover с RTO <5…

  • indexОглавление

    …Как вы делаем multi-region failover с RTO 5 минут\|387. Как вы делаем multi-region failover с RTO <5…