Поиск

wikiFailover time
# Failover time ## Определение Время переключения (failover time) — длительность переключения трафика между регионами при обнаружении сбоя. ## Где встречается - [[247. Как вы…
wikiDNS failover
# DNS failover ## Определение DNS failover — механизм автоматического переключения трафика на другой регион или сервер при обнаружении сбоя по health check…
wikimulti-region failover
# multi-region failover ## Определение Стратегия обеспечения доступности LLM-системы при отказе целого региона путём автоматического переключения трафика на рабочий регион…
wikiFailover threshold
# Failover threshold ## Определение Порог переключения (failover threshold) — количество последовательных неудачных проверок здоровья, после которого регион считается сбойным и трафик переключается…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить multi-region active-passive для inter-agent communication
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | [[Вики/DNS failover\|DNS-фейловер]] | AWS Route53 / Cloudflare DNS / PowerDNS | Health checks + automatic failover | | Система…
answerКак вы делаете multi-region failover с RTO <5 минут?
…DNS failover и health checks [[Вики/DNS failover\|DNS failover]] — механизм, при котором DNS-сервер (например, AWS Route53, Cloudflare, Azure…
wikiprovider switching
# provider switching ## Определение Автоматическое переключение между LLM провайдерами при превышении лимитов (rate limiting). ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
answerКак вы проектируете disaster recovery для LLM системы при сбое региона?
…DNS failover и health checks [[Вики/DNS failover\|DNS-фейловер]] — механизм автоматического перенаправления трафика на здоровый [[Вики/AWS Region\|регион…
wikiRedis Sentinel
# Redis Sentinel ## Определение Система для автоматического failover Redis и разрешения split-brain, обеспечивающая высокую доступность без единой точки отказа. ## Где…
wikiRoute53
# Route53 ## Определение DNS-сервис AWS, используемый для настройки health checks и primary/secondary failover при проектировании disaster recovery. ## Где встречается…
answerКак вы проектируете disaster recovery для LLM системы при сбое региона?
…DNS failover и маршрутизация трафика Используются Global Traffic Manager ([[Вики/Route53\|AWS Route53]], Azure Traffic Manager, GCP [[Вики/Облако\|Cloud…
wikidisaster recovery
# disaster recovery ## Определение Комплекс мер по восстановлению работы LLM-системы после сбоя инфраструктуры, включая failover и репликацию данных. ## Где встречается…
wikifallback model
# fallback model ## Определение Резервная модель или стратегия (например, общая LLM без RAG) при отсутствии ответа от основной модели или документов…
answerКак вы проектируете multi-region active-active для LLM API?
…Over-provisioning увеличивает стоимость. | | Сложность | Необходимость синхронизации кэша, мониторинга здоровья, автоматического failover. Требует DevOps-экспертизы. | | Cache miss при failover | Временное…
answerКак организовать multi-region active-passive для LLM API?
…return {"status": "unhealthy"}, 503 ``` ### 4.2 Механизм failover Используется DNS-основанный failover (например, Route53 health checks): 1. Активный регион имеет…
wikiGlobal load balancer
…с учётом геолокации, задержки и health checks, с автоматическим failover. ## Где встречается - [[247. Как вы проектируете multi-region active-active…
answerКак вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?
…Автоматическое переключение провайдера (OpenAI → Anthropic → Groq) [[Вики/fallback model\|Failover strategy]] — если один провайдер исчерпал лимит или недоступен, система автоматически…
wikiActive-passive
# Active-passive ## Определение Архитектура с одним активным регионом и одним или несколькими резервными (standby), которые активируются при сбое; переключение занимает…
answerКак вы проектируете multi-region active-active для LLM API?
…Обработка отказов (Failover) При падении региона: 1. Балансировщик перестаёт отправлять туда трафик (health check провален). 2. Запросы перенаправляются в другой…
wikiRouter
# Router ## Определение Компонент, который классифицирует входящий запрос и направляет его к соответствующему обработчику (модели, агенту, эксперту MoE) на основе сложности…
answerКак вы делаете disaster recovery с RPO <1 минута?
…Point-in-time recovery | | Оркестрация | Kubernetes + Istio | Traffic splitting, failover | **Пример использования etcd для состояния агентов:** ```go // Запись состояния агента…
wikirobustness
# robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…
answerКак вы обрабатываете production incident с LLM (playbook)?
…Как вы делаем multi-region failover с RTO 5 минут\|387]] | Мониторинг LLM-систем | | [[388. Что такое SLI (Service Level…
answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…Как вы делаем multi-region failover с RTO 5 минут\|387]] | Что такое SLO и SLA для AI-систем? | | [[389…
answerКакие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)?
…При падении мастера реплика становится мастером ([[Вики/fallback model\|failover]]). Обычно используют 2–3 копии. - **[[Вики/AOF\|Persistence]] ([[Вики/Persistence…
answerЧто такое graceful degradation в multi-agent системах?
…Противоположность — **[[Вики/fail-fast\|fail-fast]]** (немедленное падение при любой ошибке) и **[[Вики/fallback model\|failover]]** (полное [[Вики/fallback model…
answerКак вы делаете A/B тестирование двух моделей в production?
…в ответе | | Инфраструктурные сбои | Падение пода новой модели | Автоматический failover на control, алерт | ## 9. Пет-проект для закрепления [[Вики/Task…
answerКак вы автоматизируете rollback при деградации качества?
…Как вы делаем multi-region failover с RTO 5 минут\|387]] | Как вы реализуете canary deployment для агентов? | | [[388. Что…
answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?
…task.failover_to_on_demand() # перезапуск на on-demand sys.exit(0) signal.signal(signal.SIGTERM, graceful_termination) ``` ## 4. Cost…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для cache stampede
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 42 | Redis replication and failover | | 101 | Cache invalidation strategies | | 205 | Distributed locking (Redis…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать fallback-цепь (Агент А → Агент Б → человек)
…стратегии fallback используются в production RAG? | | 67 | Чем отличается failover от fallback в контексте LLM-агентов? | | 104 | Как реализовать human…
wikiИндекс терминов
…Вики/failed trajectory|failed trajectory]] - [[Вики/Failover threshold|Failover threshold]] - [[Вики/Failover time|Failover time]] - [[Вики/failure analysis|failure analysis…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…работает (хуже) | | 198 | Настроить multi-region active-passive | DNS failover, репликация кэша | RTO < 5 минут | | 199 | Реализовать distributed lock для…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы делаем multi-region failover с RTO <5 минут?** > *Ответ:* Active-passive: основной регион, пассивный warm. DNS failover при…
indexИндекс разборов
…Как вы делаем multi-region failover с RTO 5 минут\|387. Как вы делаем multi-region failover с RTO <5…
indexОглавление
…Как вы делаем multi-region failover с RTO 5 минут\|387. Как вы делаем multi-region failover с RTO <5…