Поиск
- wikiDNS failover
…или сервер при обнаружении сбоя по health check, обеспечивающий отказоустойчивость. ## Где встречается - [[254. Как вы проектируете disaster recovery для LLM…
- wikiLLM кластер
…Обеспечивает отказоустойчивость и низкую задержку. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikicircuitbreaker
# circuitbreaker ## Определение Библиотека Python, реализующая паттерн circuit breaker для управления отказоустойчивостью при вызовах API. ## Где встречается - [[404. Что такое circuit…
- wikiRDS
…Обеспечивает автоматическое резервное копирование, масштабирование и отказоустойчивость; часто используется для хранения базы знаний в RAG-системах. ## Где встречается - [[76. Настроить…
- wikiParallel fallback
# Parallel fallback ## Определение Паттерн, при котором несколько агентов запускаются параллельно, и используется первый успешный ответ, обеспечивая отказоустойчивость. ## Где встречается - [[763…
- wikiqueue-based escalation architecture
…или сессий от агентов к оператору-человеку, что обеспечивает отказоустойчивость и масштабирование. ## Где встречается - [[85. Спроектировать escalation system|85. Спроектировать…
- wikigraceful degradation
# graceful degradation ## Определение Способность системы продолжать работу с пониженной производительностью при частичных сбоях, а не полностью отказывать. Для агентов включает…
- wikiLLM Gateway
…провайдерам и моделям; позволяет оптимизировать стоимость, задержки и обеспечить отказоустойчивость. ## Где встречается - [[70. Как вы снижаете стоимость LLM в production…
- wikiL7 load balancer
…Позволяет реализовать маршрутизацию и отказоустойчивость. ## Где встречается - [[205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs…
- wikiFallback chain
# Fallback chain ## Определение Последовательность исполнителей (провайдеров LLM, парсеров), где задача передаётся следующему при неудаче предыдущего, обеспечивая отказоустойчивость. ## Где встречается - [[272…
- wikimulti-region active-active
…Обеспечивает высокую доступность, низкую задержку и отказоустойчивость за счёт распределения трафика и синхронизации состояния между регионами. ## Где встречается - [[247. Как…
- answerКак вы проектируете multi-region active-active для LLM API?
…Что такое sidecar pattern для LLM observability и как его реализовать\|246]] | Как вы обеспечиваете отказоустойчивость LLM сервиса? | | [[248. Что…
- answerЧто такое «actor model» для агентов (Akka, Orleans)?
…Это радикально упрощает написание многопоточного кода и повышает [[Вики/graceful degradation\|отказоустойчивость]]. --- ## 2. Как работает actor model Процесс взаимодействия: 1…
- answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Такая архитектура позволяет выдерживать пиковую нагрузку, минимизировать задержки и обеспечить [[Вики/graceful degradation\|отказоустойчивость]]. --- ## 1. Термины и требования - **[[Вики/throughput…
- answerКак вы делаете агента "отказоустойчивым" (graceful degradation)?
…Как вы делаете агента "отказоустойчивым" (graceful degradation)? ## Краткий тезис [[Вики/robustness\|Отказоустойчивость]] агента — это способность системы продолжать выполнение задач (или…
- wikirobustness
# robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…
- answerЧто такое Delegation Engineering и чем он отличается от Harness Engineering?
…каждый [[Вики/agent\|агент]] отвечает за свою область (меньше ошибок). - [[Вики/graceful degradation\|Отказоустойчивость]]: падение одного агента не обрушивает всю…
- answerКак проектировать SLA между агентом-менеджером и агентами-исполнителями?
…Правильный SLA балансирует между отказоустойчивостью системы и стоимостью ресурсов. --- ## 1. Термины: агент-менеджер и агент-исполнитель - [[Вики/Coordinator\|Агент-менеджер…
- answerКакие паттерны делегирования существуют (hierarchical, peer-to-peer, market-based)?
…Выбор паттерна определяет [[Вики/scalability\|масштабируемость]], [[Вики/graceful degradation\|отказоустойчивость]] и сложность системы. --- ## 1. Термин «Делегирование» в контексте AI-агентов…
- answerКак вы передаете состояние (state) между шагами агента?
…Правильное [[Вики/state management\|управление состоянием]] напрямую влияет на [[Вики/performance\|производительность]], [[Вики/robustness\|отказоустойчивость]] и [[Вики/Interpretability\|интерпретируемость]] агента…
- answerЧто такое agent state management (состояние агента между вызовами)?
…на уровне хранилища, TTL, удаление по logout | | [[Вики/robustness\|Отказоустойчивость]] | Потеря состояния при сбое сервера | Репликация Redis, регулярные чекпоинты | | **Латентность…
- answerЧто такое agent communication protocol (формат сообщений между агентами)?
…Протокол обеспечивает **[[Вики/scalability\|масштабируемость]]**, **[[Вики/graceful degradation\|отказоустойчивость]]** и **[[Вики/Interpretability\|прозрачность]]** взаимодействий. --- ## 1. Понятие agent communication protocol [[Вики…
- answerКак вы делаете load shedding при перегрузке LLM сервера?
…Основная цель — сохранить [[Вики/robustness\|отказоустойчивость]] и предсказуемое качество ответов для наиболее критичных клиентов. [[Вики/Policy\|Стратегия]] строится на приоритизации…
- answerКак вы обрабатываете streaming данные для real-time RAG?
…низкая [[Вики/TTFT\|задержка]] индексации]], [[Вики/idempotency key\|идемпотентность]], [[Вики/robustness\|отказоустойчивость]], возможность обрабатывать [[Вики/Out-of-order events\|out…
- answerКак вы делаете disaster recovery с RPO <1 минута?
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать\|388]] | Как обеспечить отказоустойчивость Agentic RAG? | | [[390…
- answerКак вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма?
…Такая архитектура позволяет переключать провайдеров без остановки сервиса, избегает lock-in|vendor lock-in и повышает отказоустойчивость. Простейшая реализация занимает…
- answerLangChain vs LlamaIndex vs Haystack — что выберете и почему?
…Real-time ingestion\|streaming]]. - Фокус на **[[Вики/graceful degradation\|отказоустойчивость]]** и **[[Вики/monitoring errorslatency\|observability]]**. --- ## 3. Сравнительная таблица | Характеристика | LangChain…
- answerКак бы вы спроектировали систему для реального времени (real-time) обработки документов?
…Масштабирование и отказоустойчивость ### 8.1 Горизонтальное масштабирование - Kafka partitions — увеличить количество партиций для параллельной обработки. - [[Вики/Consumer Groups\|Consumer groups…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать sharded cache на 10+ нод
…Добавить тесты на отказоустойчивость (проверка, что при временном недоступе одной ноды клиент не падает, а возвращает ошибку или редиректит). 5…
- answerЧто такое «chaos testing» для агента (внезапно API вернул ошибку)?
…используются в production-сценариях (поддержка клиентов, бронирование, анализ данных). Отказоустойчивость становится критичной: - Предотвращение «ложных ответов»: если внешний API вернул мусор…
- answerКак организовать streaming feature pipelines для real-time RAG?
…запросов | | [[860_Как_обеспечить_надёжность_agentic_RAG.md\|860]] | Отказоустойчивость и мониторинг agentic систем | | [[861_Как_реализовать_векторное_кэширование.md…
- answerКак вы переносите агента из прототипа в production (MLOps)?
…в POC можно игнорировать [[Вики/graceful degradation\|отказоустойчивость]], [[Вики/мониторинг\|мониторинг]] и [[Вики/Safetysecurity\|безопасность]] — в production это критично. --- ## 2…
- answerЧто такое rate limiting на уровне API Gateway для LLM?
…метрики мониторить для API Gateway LLM? | | 834 | Как обеспечить отказоустойчивость API Gateway? | --- ## Навигация (Obsidian) - Предыдущий: [[828. Как проектировать distributed locking…
- answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?
…без поломки новых, а fallback-механизмы обеспечивают [[Вики/robustness\|отказоустойчивость]]. --- ## 1. Термин: Парсер (Parser) и его роль [[Вики/Parser\|Парсер…
- answerЧто такое Cost Engineering для LLM-систем?
…spot-инстансы могут прерываться → нужно проектировать [[Вики/graceful degradation\|отказоустойчивость]] ([[Вики/retry\|retry-логика]], [[Вики/fallback model\|fallback]] на [[Вики…
- answerЧто такое «agentic mesh» (сеть взаимодействующих агентов) и как вы его дебажите?
…можно добавлять новые [[Вики/AI agents\|агенты]] без изменения существующих. - [[Вики/robustness\|Отказоустойчивость]]: при падении одного агента остальные продолжают работу…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить человеческий фактор
…pytest-asyncio) | | 840 | Паттерн «Пул ресурсов» (Resource Pool) | | 899 | Отказоустойчивость очередей (Dead letter queues) | --- ## 10. Чек-лист самопроверки - [ ] У меня…
- answerКак тестировать fallback и graceful degradation?
…Связь с другими вопросами | Вопрос | Тема | |--------|------| | 790 | Как обеспечить отказоустойчивость (resilience) в Agentic RAG | | 789 | Graceful degradation в мультимодальных RAG…
- answerКак вы проектируете dead letter queue для failed LLM инференс запросов?
…Как вы проектируете backpressure в LLM serving системе\|411]] | Как вы тестируете отказоустойчивость LLM-сервиса? | | [[412. Как вы делаете cache…
- answerКак вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?
…Как обеспечить отказоустойчивость LLM-системы]] | Failover и high availability | | [[64. Как вы измеряете и уменьшаете latency]] | Задержки при retry и…
- answerКак организовать multi-region active-passive для LLM API?
…Как балансировать нагрузку между LLM-инстансами? | | 756 | Как обеспечить отказоустойчивость RAG-системы? | | 758 | Как организовать кэширование ответов LLM? | | 761 | Как…
- answerЧто такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?
…Асинхронность]] — отправитель не блокируется, может продолжать работу. - [[Вики/robustness\|Отказоустойчивость]] — если один [[Вики/AI agents\|агент]] упал, сообщения сохраняются в…
- answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Harness Engineering позволяет ставить лимиты. - [[Вики/robustness\|Отказоустойчивость]]: если один инструмент не отвечает, агент должен переключиться на fallback. Пример: в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Prompt Registry
…Кэширование с Redis и отказоустойчивость (45 минут) Действия 1. Реализовать сервис `[[Вики/caching\|cache]].py` для работы с [[Вики/Kafka…
- answerКак вы строите real-time voice agent с latency <500ms?
…Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)\|365]] | Как вы обеспечиваете отказоустойчивость voice agent? | | [[7. Как вы…
- answerЧто такое Kafka compaction для логов LLM взаимодействий?
…не подходит для real-time | | Kafka compact | Потоковая обработка, отказоустойчивость, масштабирование | Задержка компактизации, не мгновенное удаление | Выбор зависит от требований…
- answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
…пакетная обработка через pipeline (как в коде выше). - [[Вики/robustness\|Отказоустойчивость]] — при падении Redis можно либо блокировать запросы (fail-closed…
- answerКак вы проектируете Kafka топологии для RAG ingestion?
…асинхронность]]** и буферизацию при пиковых нагрузках. - Гарантировать **[[Вики/robustness\|отказоустойчивость]]** и [[Вики/consistency\|воспроизводимость]] ([[Вики/session replay\|replay]]) сообщений. - Легко…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить monitoring сообщений в системе inter-agent communication
…Протестировать отказоустойчивость: временно остановить брокер — убедиться, что msg/s упал до нуля, error rate вырос, на DLQ прибавилось. 3. Зафиксировать…
- answerCrewAI vs AutoGen vs LangGraph — сравнение?
…LangGraph предоставляет [[Вики/LangSmith\|LangSmith]] для трассировки каждого шага, CrewAI — только логи в консоль, AutoGen — логи сообщений. - [[Вики/robustness\|Отказоустойчивость…