ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить multi-region active-passive для inter-agent communication

1. Цель задачи

Научиться проектировать и реализовывать отказоустойчивую архитектуру для общения между AI-агентами (inter-agent communication) с использованием мультирегиональной active-passive схемы. В результате вы настроите DNS-фейловер и репликацию кэша, обеспечив RTO менее 5 минут — то есть система автоматически переключается на резервный регион с минимальным прерыванием связи между агентами.

Ключевой результат Рабочая multi-region связка, где при отказе основного региона трафик переключается на пассивный за <5 минут, а состояние кэша агентов не теряется (RPO < 1 минута).

2. Исходные данные

Перед началом необходимо иметь:

Что нужно	Откуда взять
Два сервера/кластера (реальные или виртуальные)	AWS (us-east-1, eu-west-1) / GCP / Azure или локальные Docker-хосты
DNS-провайдер с API для health checks	AWS Route53 (рекомендуется) или Cloudflare / DigitalOcean DNS
Управляемая или самодельная система кэша	Redis Cluster или KeyDB с поддержкой репликации
Инструмент для инфраструктурного кода	Terraform (версия ≥1.5)
Docker и Docker Compose	Для локальной симуляции
Нагрузочный тестер	Python (asyncio + aiohttp) или Locust
Мониторинг	Prometheus + Grafana (опционально)

Если нет реального облачного провайдера — симулируем:

Разверните два Docker-кластера на одной машине (через docker-compose с разными compose-файлами и сетями region1_net, region2_net).
Используйте traefik или nginx для имитации DNS-балансировки (health check по HTTP).
Для кэша поднимите два Redis-экземпляра (один master, другой slave), настройте репликацию между ними через docker network.
Для имитации failure используйте docker stop контейнера основного региона.

3. Технологический стек

Компонент	Инструменты	Назначение
DNS-фейловер	AWS Route53 / Cloudflare DNS / PowerDNS	Health checks + automatic failover
Система кэша	Redis Cluster / KeyDB / Dragonfly	Репликация состояния между агентами
Оркестрация агентов	Docker Compose / Kubernetes (kind)	Запуск контейнеров-агентов в каждом регионе
Инфраструктура как код	Terraform / Pulumi	Декларативное описание DNS-записей, health checks
Мониторинг RTO	Prometheus + Blackbox Exporter	Измерение времени отклика и времени failover
Тестирование failover	Python (aiohttp) + shell-скрипты	Эмуляция отказа, замер RTO
Симуляция агентов	FastAPI (простой эндпоинт /health)	Имитация здоровья и обмена сообщениями

4. Этапы выполнения

Этап 1: Развёртывание двух регионов — Active и Passive (1 час)

Действия

Создайте инфраструктуру двух регионов
- Используйте Terraform для AWS (или Docker Compose для симуляции).
- В каждом регионе запустите:
  - Service-Agent — FastAPI-приложение с эндпоинтами /health, /send (для получения сообщений от другого агента).
  - Redis — хранит очередь сообщений и кэш (например, последние 100 сообщений).
Пример Docker Compose для региона 1 (region1/docker-compose.yml):
```
version: '3.8'
services:
  agent:
    image: python:3.11-slim
    ports: ["8081:8080"]
    command: >
      sh -c "pip install fastapi uvicorn redis && 
             uvicorn agent:app --host 0.0.0.0 --port 8080"
    networks: [region1_net]
    environment:
      - REDIS_HOST=redis
  redis:
    image: redis:7-alpine
    volumes: ["./redis_data:/data"]
    networks: [region1_net]
networks:
  region1_net: {}
```
Настройте репликацию кэша между регионами
- Redis в регионе 1 (активный) — master.
- Redis в регионе 2 (пассивный) — slave (replicaof).
- Для сетевой связности между контейнерами разных регионов используйте docker network connect или expose порты на хост.
Команда для репликации (вручную или через entrypoint):
```
docker exec -it region2_redis redis-cli REPLICAOF host.docker.internal 6379
```
Добавьте health check
- Агент каждого региона возвращает {"status": "ok"} на /health.
- Проверьте, что оба региона отвечают.

Ожидаемый результат этапа Два независимых набора сервисов (агент + Redis), между которыми настроена репликация кэша (активный → пассивный). Кэш агентов синхронизируется с задержкой < 1 секунда.

Этап 2: Настройка DNS-фейловера (1 час)

Действия

Создайте DNS-зону (например, agents.example.local).
Настройте health checks для двух IP-адресов регионов.
- Для AWS Route53: aws route53 create-health-check (проверка HTTP 200 по /health).
- Для симуляции: используйте bash-скрипт, который периодически опрашивает эндпоинты и обновляет DNS-запись (например, через nsupdate или редактирование локального /etc/hosts).

Создайте DNS-запись с failover policy (Primary/Secondary)

Primary — IP региона 1.
Secondary — IP региона 2.
Time-to-live (TTL) ≤ 60 секунд (чтобы ускорить переключение).

Пример Terraform для Route53:

resource "aws_route53_health_check" "primary" {
  fqdn              = "agent-region1.example.local"
  port              = 8080
  type              = "HTTP"
  resource_path     = "/health"
  request_interval  = 10
  failure_threshold = 3
}
resource "aws_route53_record" "agent" {
  zone_id = aws_route53_zone.main.zone_id
  name    = "agent.example.local"
  type    = "A"
  set_identifier = "primary"
  failover_routing_policy {
    type = "PRIMARY"
  }
  health_check_id = aws_route53_health_check.primary.id
  ttl             = 60
  records         = [aws_instance.region1.public_ip]
}

Проверьте DNS-резолвинг

dig agent.example.local +short
# Должен вернуться IP региона 1

Ожидаемый результат этапа DNS-запись agent.example.local указывает на активный регион. При отказе /health в регионе 1 автоматически переключается на IP региона 2 (после 3 неудачных проверок + propagation ~60 секунд).

Этап 3: Интеграция агентов и тестирование failover (1–1.5 часа)

Действия

Напишите скрипт имитации inter-agent communication

Агенты обмениваются сообщениями через HTTP POST к agent.example.local/send.
Сообщения сохраняются в Redis (активного региона) и реплицируются на пассивный.
Скрипт (Python) непрерывно шлёт сообщения и логирует успешность:

import aiohttp, asyncio, time
async def test():
    async with aiohttp.ClientSession() as session:
        while True:
            start = time.time()
            try:
                async with session.post("http://agent.example.local/send", json={"msg": "hello"}) as resp:
                    if resp.status == 200:
                        print(f"OK in {time.time()-start:.2f}s")
                    else:
                        print(f"FAIL status {resp.status}")
            except Exception as e:
                print(f"FAIL {e}")
            await asyncio.sleep(0.5)
asyncio.run(test())

Эмулируйте отказ активного региона
- Выполните docker stop region1_agent (или выключите сервис).
- Засеките время с момента появления первой ошибки до успешного ответа от нового active (регион 2).
Измерьте RTO
- Используйте мониторинг Prometheus + Blackbox Exporter для сбора метрики probe_success и probe_duration_seconds.
- RTO = время последнего failed запроса до первого успешного от нового региона.
Проверьте целостность кэша
- После переключения проверьте, что сообщения, отправленные до отказа, присутствуют в Redis региона 2 (реплицировались).

Ожидаемый результат этапа Failover происходит автоматически, RTO ≤ 5 минут, кэш не теряет данные (RPO < 1 мин).

Этап 4: Документирование и автоматизация (30 минут)

Действия

Напишите Terraform-конфигурацию для полного развёртывания (если использовали Docker — конвертируйте в Terraform для облака).
Создайте README с описанием архитектуры, команд для развёртывания и тестирования.
Добавьте shell-скрипт test_failover.sh:
- Создаёт нагрузку
- Останавливает primary
- Ждёт переключения
- Проверяет RTO
- Выводит итоговый отчёт
Добавьте CI-пайплайн (GitHub Actions) для автоматического прогона теста при каждом изменении.

Ожидаемый результат этапа Весь процесс развёртывания и тестирования воспроизводим одной командой. Есть документация и CI.

5. Критерии приемки (Definition of Done)

DNS-запись agent.example.local использует primary/secondary failover с health check.
При отказе активного региона DNS автоматически переключается на пассивный менее чем за 5 минут (измеряется с момента падения до первого успешного ответа).
Репликация Redis настроена: все ключи, записанные в active-region Redis, появляются в passive-region Redis с задержкой < 1 секунда.
После failover агенты в пассивном регионе могут читать кэш (последние сообщения).
При восстановлении активного региона трафик возвращается к нему (если настроен primary/preferred) — автоматически или с ручным триггером.
Написан скрипт тестирования failover (Python/shell) с замером RTO.
Результаты тестов задокументированы (хотя бы в логе терминала).
В репозитории есть terraform/ (или docker/) и README.md с инструкцией.

6. Ожидаемый результат

Вы предоставляете:

Код инфраструктуры (Terraform или Docker Compose) для развёртывания двух регионов с агентами и Redis.
Файл с DNS-конфигурацией (Terraform-ресурс Route53 или локальный скрипт).
Скрипт тестирования failover (test_failover.sh / test_failover.py) с выводом времени RTO.
Лог успешного прогона (например, сохранённый в test_output.log), где RTO < 5 минут.
README с описанием архитектуры, шагов по развёртыванию и результатов тестирования.

Опционально: дашборд Grafana с метриками здоровья и времени переключения.

7. Возможные сложности и их решение

Сложность	Решение
DNS-кэширование на клиенте — даже после переключения записи клиенты могут использовать старый IP (TTL ещё не истёк).	Установите TTL ≤ 60 секунд; на клиенте отключите кэширование DNS (в Python: `connector = aiohttp.TCPConnector(ttl_dns_cache=0)`).
Split-brain при репликации Redis — при отказе и восстановлении могут появиться конфликтующие данные.	Используйте Redis Sentinel или KeyDB с active-replica (CRDT) для автоматического разрешения конфликтов. В данной active-passive — не страшно, т.к. данные пишутся только в active.
Health check ложные срабатывания — временная задержка сети может вызвать переключение.	Увеличьте `failure_threshold` (например, до 5), используйте `request_interval` 10 секунд.
RTO > 5 минут — из-за медленного обнаружения отказа (health check каждые 30 сек + TTL).	Уменьшите интервал health check до 5 секунд, `failure_threshold` до 2, TTL до 10 секунд.

8. Бюджет времени (оценка)

Этап	Время
Развёртывание двух регионов	1 час
Настройка DNS-фейловера	1 час
Интеграция и тестирование failover	1–1.5 часа
Документирование и автоматизация	30 минут
Итого	3.5–4 часа

Примечание Первое выполнение может занять до 6 часов из-за изучения Terraform / Redis replication.

9. Связанные вопросы из базы знаний

Вопрос	Тема
152	Active-passive vs active-active в inter-agent коммуникации
189	Настройка DNS-фейловера для LLM-сервисов
204	Репликация кэша с Redis Cluster для распределённых агентов
217	RTO и RPO в контексте AI-инфраструктуры
233	Health checks и метрики живучести (liveness/readiness)
278	Terraform-провайдеры для DNS и мониторинга
324	Использование Prometheus Blackbox Exporter для проверки эндпоинтов
401	CI/CD для multi-region деплоя (GitHub Actions)
412	KeyDB против Redis для multi-master репликации
589	Обработка split-brain при репликации в AI-системах

10. Чек-лист самопроверки

Я развернул два региона с агентами и Redis (Docker или облако).
Я настроил DNS-запись с failover policy и health check на /health.
Я проверил репликацию Redis: запись в active — появление в passive.
Я написал скрипт тестирования, который измеряет RTO.
Я провёл тест failover (остановка active) и получил RTO < 5 минут.
Я написал README с инструкцией по воспроизведению.
Я добавил опциональный CI (GitHub Actions) для автоматического теста.
Я зафиксировал результаты теста (логи, скриншоты).
Я убедился, что после failover кэш не потерян (проверил наличие сообщений в пассивном Redis).

ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить multi-region active-passive для inter-agent communication

1. Цель задачи

2. Исходные данные

Перед началом необходимо иметь:

Что нужно	Откуда взять
Два сервера/кластера (реальные или виртуальные)	AWS (us-east-1, eu-west-1) / GCP / Azure или локальные Docker-хосты
DNS-провайдер с API для health checks	AWS Route53 (рекомендуется) или Cloudflare / DigitalOcean DNS
Управляемая или самодельная система кэша	Redis Cluster или KeyDB с поддержкой репликации
Инструмент для инфраструктурного кода	Terraform (версия ≥1.5)
Docker и Docker Compose	Для локальной симуляции
Нагрузочный тестер	Python (asyncio + aiohttp) или Locust
Мониторинг	Prometheus + Grafana (опционально)

Если нет реального облачного провайдера — симулируем:

Разверните два Docker-кластера на одной машине (через docker-compose с разными compose-файлами и сетями region1_net, region2_net).
Используйте traefik или nginx для имитации DNS-балансировки (health check по HTTP).
Для кэша поднимите два Redis-экземпляра (один master, другой slave), настройте репликацию между ними через docker network.
Для имитации failure используйте docker stop контейнера основного региона.

3. Технологический стек

Компонент	Инструменты	Назначение
DNS-фейловер	AWS Route53 / Cloudflare DNS / PowerDNS	Health checks + automatic failover
Система кэша	Redis Cluster / KeyDB / Dragonfly	Репликация состояния между агентами
Оркестрация агентов	Docker Compose / Kubernetes (kind)	Запуск контейнеров-агентов в каждом регионе
Инфраструктура как код	Terraform / Pulumi	Декларативное описание DNS-записей, health checks
Мониторинг RTO	Prometheus + Blackbox Exporter	Измерение времени отклика и времени failover
Тестирование failover	Python (aiohttp) + shell-скрипты	Эмуляция отказа, замер RTO
Симуляция агентов	FastAPI (простой эндпоинт /health)	Имитация здоровья и обмена сообщениями

4. Этапы выполнения

Этап 1: Развёртывание двух регионов — Active и Passive (1 час)

Действия

Создайте инфраструктуру двух регионов
- Используйте Terraform для AWS (или Docker Compose для симуляции).
- В каждом регионе запустите:
  - Service-Agent — FastAPI-приложение с эндпоинтами /health, /send (для получения сообщений от другого агента).
  - Redis — хранит очередь сообщений и кэш (например, последние 100 сообщений).
Пример Docker Compose для региона 1 (region1/docker-compose.yml):
```
version: '3.8'
services:
  agent:
    image: python:3.11-slim
    ports: ["8081:8080"]
    command: >
      sh -c "pip install fastapi uvicorn redis && 
             uvicorn agent:app --host 0.0.0.0 --port 8080"
    networks: [region1_net]
    environment:
      - REDIS_HOST=redis
  redis:
    image: redis:7-alpine
    volumes: ["./redis_data:/data"]
    networks: [region1_net]
networks:
  region1_net: {}
```
Настройте репликацию кэша между регионами
- Redis в регионе 1 (активный) — master.
- Redis в регионе 2 (пассивный) — slave (replicaof).
- Для сетевой связности между контейнерами разных регионов используйте docker network connect или expose порты на хост.
Команда для репликации (вручную или через entrypoint):
```
docker exec -it region2_redis redis-cli REPLICAOF host.docker.internal 6379
```
Добавьте health check
- Агент каждого региона возвращает {"status": "ok"} на /health.
- Проверьте, что оба региона отвечают.

Этап 2: Настройка DNS-фейловера (1 час)

Действия

Создайте DNS-зону (например, agents.example.local).
Настройте health checks для двух IP-адресов регионов.
- Для AWS Route53: aws route53 create-health-check (проверка HTTP 200 по /health).
- Для симуляции: используйте bash-скрипт, который периодически опрашивает эндпоинты и обновляет DNS-запись (например, через nsupdate или редактирование локального /etc/hosts).

Создайте DNS-запись с failover policy (Primary/Secondary)

Primary — IP региона 1.
Secondary — IP региона 2.
Time-to-live (TTL) ≤ 60 секунд (чтобы ускорить переключение).

Пример Terraform для Route53:

resource "aws_route53_health_check" "primary" {
  fqdn              = "agent-region1.example.local"
  port              = 8080
  type              = "HTTP"
  resource_path     = "/health"
  request_interval  = 10
  failure_threshold = 3
}
resource "aws_route53_record" "agent" {
  zone_id = aws_route53_zone.main.zone_id
  name    = "agent.example.local"
  type    = "A"
  set_identifier = "primary"
  failover_routing_policy {
    type = "PRIMARY"
  }
  health_check_id = aws_route53_health_check.primary.id
  ttl             = 60
  records         = [aws_instance.region1.public_ip]
}

Проверьте DNS-резолвинг

dig agent.example.local +short
# Должен вернуться IP региона 1

Этап 3: Интеграция агентов и тестирование failover (1–1.5 часа)

Действия

Напишите скрипт имитации inter-agent communication

Агенты обмениваются сообщениями через HTTP POST к agent.example.local/send.
Сообщения сохраняются в Redis (активного региона) и реплицируются на пассивный.
Скрипт (Python) непрерывно шлёт сообщения и логирует успешность:

import aiohttp, asyncio, time
async def test():
    async with aiohttp.ClientSession() as session:
        while True:
            start = time.time()
            try:
                async with session.post("http://agent.example.local/send", json={"msg": "hello"}) as resp:
                    if resp.status == 200:
                        print(f"OK in {time.time()-start:.2f}s")
                    else:
                        print(f"FAIL status {resp.status}")
            except Exception as e:
                print(f"FAIL {e}")
            await asyncio.sleep(0.5)
asyncio.run(test())

Эмулируйте отказ активного региона
- Выполните docker stop region1_agent (или выключите сервис).
- Засеките время с момента появления первой ошибки до успешного ответа от нового active (регион 2).
Измерьте RTO
- Используйте мониторинг Prometheus + Blackbox Exporter для сбора метрики probe_success и probe_duration_seconds.
- RTO = время последнего failed запроса до первого успешного от нового региона.
Проверьте целостность кэша
- После переключения проверьте, что сообщения, отправленные до отказа, присутствуют в Redis региона 2 (реплицировались).

Ожидаемый результат этапа Failover происходит автоматически, RTO ≤ 5 минут, кэш не теряет данные (RPO < 1 мин).

Этап 4: Документирование и автоматизация (30 минут)

Действия

Напишите Terraform-конфигурацию для полного развёртывания (если использовали Docker — конвертируйте в Terraform для облака).
Создайте README с описанием архитектуры, команд для развёртывания и тестирования.
Добавьте shell-скрипт test_failover.sh:
- Создаёт нагрузку
- Останавливает primary
- Ждёт переключения
- Проверяет RTO
- Выводит итоговый отчёт
Добавьте CI-пайплайн (GitHub Actions) для автоматического прогона теста при каждом изменении.

5. Критерии приемки (Definition of Done)

DNS-запись agent.example.local использует primary/secondary failover с health check.
При отказе активного региона DNS автоматически переключается на пассивный менее чем за 5 минут (измеряется с момента падения до первого успешного ответа).
Репликация Redis настроена: все ключи, записанные в active-region Redis, появляются в passive-region Redis с задержкой < 1 секунда.
После failover агенты в пассивном регионе могут читать кэш (последние сообщения).
При восстановлении активного региона трафик возвращается к нему (если настроен primary/preferred) — автоматически или с ручным триггером.
Написан скрипт тестирования failover (Python/shell) с замером RTO.
Результаты тестов задокументированы (хотя бы в логе терминала).
В репозитории есть terraform/ (или docker/) и README.md с инструкцией.

6. Ожидаемый результат

Вы предоставляете:

Код инфраструктуры (Terraform или Docker Compose) для развёртывания двух регионов с агентами и Redis.
Файл с DNS-конфигурацией (Terraform-ресурс Route53 или локальный скрипт).
Скрипт тестирования failover (test_failover.sh / test_failover.py) с выводом времени RTO.
Лог успешного прогона (например, сохранённый в test_output.log), где RTO < 5 минут.
README с описанием архитектуры, шагов по развёртыванию и результатов тестирования.

Опционально: дашборд Grafana с метриками здоровья и времени переключения.

7. Возможные сложности и их решение

Сложность	Решение
DNS-кэширование на клиенте — даже после переключения записи клиенты могут использовать старый IP (TTL ещё не истёк).	Установите TTL ≤ 60 секунд; на клиенте отключите кэширование DNS (в Python: `connector = aiohttp.TCPConnector(ttl_dns_cache=0)`).
Split-brain при репликации Redis — при отказе и восстановлении могут появиться конфликтующие данные.	Используйте Redis Sentinel или KeyDB с active-replica (CRDT) для автоматического разрешения конфликтов. В данной active-passive — не страшно, т.к. данные пишутся только в active.
Health check ложные срабатывания — временная задержка сети может вызвать переключение.	Увеличьте `failure_threshold` (например, до 5), используйте `request_interval` 10 секунд.
RTO > 5 минут — из-за медленного обнаружения отказа (health check каждые 30 сек + TTL).	Уменьшите интервал health check до 5 секунд, `failure_threshold` до 2, TTL до 10 секунд.

8. Бюджет времени (оценка)

Этап	Время
Развёртывание двух регионов	1 час
Настройка DNS-фейловера	1 час
Интеграция и тестирование failover	1–1.5 часа
Документирование и автоматизация	30 минут
Итого	3.5–4 часа

Примечание Первое выполнение может занять до 6 часов из-за изучения Terraform / Redis replication.

9. Связанные вопросы из базы знаний

Вопрос	Тема
152	Active-passive vs active-active в inter-agent коммуникации
189	Настройка DNS-фейловера для LLM-сервисов
204	Репликация кэша с Redis Cluster для распределённых агентов
217	RTO и RPO в контексте AI-инфраструктуры
233	Health checks и метрики живучести (liveness/readiness)
278	Terraform-провайдеры для DNS и мониторинга
324	Использование Prometheus Blackbox Exporter для проверки эндпоинтов
401	CI/CD для multi-region деплоя (GitHub Actions)
412	KeyDB против Redis для multi-master репликации
589	Обработка split-brain при репликации в AI-системах

10. Чек-лист самопроверки

Я развернул два региона с агентами и Redis (Docker или облако).
Я настроил DNS-запись с failover policy и health check на /health.
Я проверил репликацию Redis: запись в active — появление в passive.
Я написал скрипт тестирования, который измеряет RTO.
Я провёл тест failover (остановка active) и получил RTO < 5 минут.
Я написал README с инструкцией по воспроизведению.
Я добавил опциональный CI (GitHub Actions) для автоматического теста.
Я зафиксировал результаты теста (логи, скриншоты).
Я убедился, что после failover кэш не потерян (проверил наличие сообщений в пассивном Redis).