Error rate
Error rate
Определение
Доля запросов, завершившихся ошибкой (4xx, 5xx). Ключевая метрика для мониторинга и canary-анализа, не должна превышать baseline более чем на 1%.
Где встречается
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
- 136. Как вы AB тестируете две версии промпта в production
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 247. Как вы проектируете multi-region active-active для LLM API
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 382. Как вы проектируете canary deployment для LLM модели
- 385. Как вы автоматизируете rollback при деградации качества
- 388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать
- 390. Как вы проектируем on-call ротацию для AI сервиса
- 393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)
- 410. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 430. Как вы делаете canary analysis для новой LLM модели
- 756. Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)
- 765. Как измерять «стоимость делегирования» (токены + время + деньги)
- 768. Что такое «ротация агентов» (load balancing между агентами)
- 790. Что такое «canary testing» для агентов (10% трафика на новую версию)
- 803. Как делать canary deployment для промптов (5% трафика)
- 804. Как делать rollback промпта (auto-rollback при деградации метрик)
- Практика
- 800+ вопросов
- 118. Реализовать fallback-цепь (Агент А → Агент Б → человек)
- 124. Настроить SLA между агентами
- 153. Настроить chaos testing
- 160. Написать test plan для агента
- 188. Настроить monitoring сообщений
- 194. Настроить distributed tracing через OpenTelemetry