Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?

Q: 2. Operational Readiness Review (ORR) — Ревью готовности к эксплуатации

Что проверяется на [[Вики/Operational Readiness Review\|ORR]] - Архитектура — соответствует ли дизайн требованиям по надёжности ([[Вики/reliability\|reliability]]), отказоустойчивости ([[Вики/reliability\|availability]]), масштабированию ([[Вики/scalability\|scalability]]). - Зависимости — все внешние и внутренние зависимости учтены (базы данных, [[Вики/API\|API]], сторонние сервисы).

Q: 3. Operational Reviews — Еженедельные встречи по эксплуатации

Повестка типовой встречи 1. **[[Вики/availability\|Availability]] ([[Вики/availability\|доступность]])** — процент времени, когда сервис работал без ошибок (обычно 99.9%+). 2. Customer-impacting [[Вики/Metrics\|metrics]] — количество инцидентов, затронувших пользователей, время реакции ([[Вики/MTTR\|MTTR]]), время до обнаружения ([[Вики/MTTD\|MTTD]]).

Q: 4. Spin the wheel — Кросс-ревью команд

Как это работает 1. Составляется список команд, участвующих в программе. 2. Каждую неделю (или раз в две недели) выбирается пара: рецензент и рецензируемый. 3. Рецензент изучает дашборды, runbooks, инциденты рецензируемой команды за последний период. 4. На общей встрече (вместо обычного [[Вики/Operational Review\|Operational Review]]) команда-рецензент представляет свои находки.

Q: 5. Инструментальная поддержка: Дашборды и алерты

Требования к дашборду - **Слой-1 ([[Вики/crew\|команда]] [[Вики/on-call\|on-call]])** — самые важные метрики: [[Вики/availability\|availability]], [[Вики/Error rate\|error rate]], [[Вики/Latency\|latency]]. Минимум текста. - **Слой-2 (инженеры сервиса)** — детальные метрики (per-endpoint, per-клиент).

Q: 6. Процесс устранения проблем (High/Medium/Low)

После [[Вики/Operational Readiness Review\|ORR]] или [[Вики/Operational Review\|Operational Review]] все выявленные проблемы заносятся в трекинг-систему ([[Вики/Jira\|Jira]], [[Вики/Linear\|Linear]]). Для каждого уровня задаются сроки: - High — блокирует запуск. [[Вики/crew\|Команда]] обязана решить до релиза. [[Вики/escalation\|Эскалация]] до менеджера, если не решено в течение 24 часов.

Q: 7. Интеграция с CI/CD и GitOps

- [[Вики/Quality gates\|Quality gates]] — перед деплоем обязательно должен пройти [[Вики/Operational Readiness Review\|ORR]] (или [[Вики/human-in-the-loop\|подтверждение]], что [[Вики/feature\|фича]] не требует нового [[Вики/Operational Readiness Review\|ORR]]). - [[Вики/runbook\|Runbook]] [[Вики/Validation set\|validation]] — автоматическая [[Вики/Check\|проверка]], что [[Вики/runbook\|runbook]] для новых фич существует и соответствует шаблону.

Краткий тезис

Operational excellence в Harness Engineering — это система непрерывного контроля и улучшения эксплуатационной готовности сервисов. Она строится на двух ключевых практиках: ORR (Readiness Review|Operational Readiness Review) — предварительное ревью готовности фичи к эксплуатации до начала разработки, и Operational Reviews — регулярные (еженедельные) встречи команд для анализа метрик и инцидентов. В основе лежит культура «Spin the wheel» — кросс-ревью команд для обмена опытом и выявления слепых зон.

1. Термин: Operational Excellence (Операционное совершенство)

Что это подход к управлению сервисами, при котором процессы эксплуатации (мониторинг, инциденты, ёмкость, безопасность) являются неотъемлемой частью жизненного цикла разработки, а не реактивным этапом после релиза.

Ключевые принципы

Проактивность — выявление проблем до того, как они повлияют на пользователей.
Измеряемость — все решения основаны на метриках и SLA/SLO.
Автоматизация — рутинные проверки и действия автоматизированы.
Культура обучения — ошибки анализируются и превращаются в улучшения.

В контексте Harness operational excellence тесно связан с их платформой для CI/CD и GitOps, где каждый сервис должен соответствовать определённым критериям эксплуатационной готовности.

2. Operational Readiness Review (ORR) — Ревью готовности к эксплуатации

ORR — это формальный процесс, который проводится до начала разработки новой фичи или сервиса. Цель — заранее определить все требования к эксплуатации и убедиться, что команда готова их выполнить.

Что проверяется на ORR

Архитектура — соответствует ли дизайн требованиям по надёжности (reliability), отказоустойчивости (availability), масштабированию (scalability).
Зависимости — все внешние и внутренние зависимости учтены (базы данных, API, сторонние сервисы).
Мониторинг и дашборды — определены ключевые метрики (latency, error rate, throughput) и настроены дашборды для команды и инженеров on-call.
Безопасность — проведена ли оценка рисков, настроены ли уведомления о подозрительной активности.
Стоимость — оценено влияние фичи на затраты облачных ресурсов (cost impact).
План инцидентов — написаны ли runbooks для типовых сценариев отказа.

Результаты ORR Каждый пункт проверки получает ранг:

High — блокирующий; фича не может быть запущена до его устранения.
Medium — должен быть исправлен в течение 90 дней после запуска.
Low — заносится в бэклог и может быть реализован позже.

Пример: Команда планирует добавить новый эндпоинт с потоковой передачей данных. На ORR выясняется, что текущий балансировщик не поддерживает долгие соединения (High). Разработка приостанавливается, пока не будет выбрано и внедрено альтернативное решение (например, использование WebSocket-прокси).

3. Operational Reviews — Еженедельные встречи по эксплуатации

Operational Reviews — это регулярные (еженедельные) встречи каждой команды, на которых рассматриваются операционные метрики и тренды. Встреча длится 30–60 минут и проводится в формате дашборд-ревью.

Повестка типовой встречи

Availability (доступность) — процент времени, когда сервис работал без ошибок (обычно 99.9%+).
Customer-impacting metrics — количество инцидентов, затронувших пользователей, время реакции (MTTR), время до обнаружения (MTTD).
Ticket trends — анализ запросов в службу поддержки: какие проблемы повторяются, есть ли рост числа обращений.
Capacity planning — текущая загрузка, прогноз по росту трафика, необходимость увеличения ресурсов.
Performance — latency (p50, p95, p99), throughput, количество медленных запросов.

Формат "Spin the wheel Раз в несколько недель (или по ротации) команды проводят кросс-ревью — одна команда ревьюирует operational metrics другой. Это позволяет:

Заметить проблемы, которые незаметны команде-владельцу (свежий взгляд).
Распространить лучшие практики между командами.
Построить общую культуру ответственности за эксплуатацию.

4. Spin the wheel — Кросс-ревью команд

Spin the wheel — это механизм, при котором случайным образом выбирается команда-рецензент для проведения операционного ревью другой команды. Название происходит от идеи «вращения колеса» — случайного выбора.

Как это работает

Составляется список команд, участвующих в программе.
Каждую неделю (или раз в две недели) выбирается пара: рецензент и рецензируемый.
Рецензент изучает дашборды, runbooks, инциденты рецензируемой команды за последний период.
На общей встрече (вместо обычного Operational Review) команда-рецензент представляет свои находки.
Обсуждаются сильные стороны и точки для улучшения.

Преимущества

Снижение "bias — команда-владелец может привыкнуть к хроническим проблемам.
Обучение — инженеры знакомятся с архитектурой и операционными практиками других сервисов.
Стандартизация — выявляются расхождения в подходах к мониторингу, документации, реагированию.

5. Инструментальная поддержка: Дашборды и алерты

Operational excellence невозможна без качественных дашбордов. В Harness используются внутренние инструменты (интегрированные с их платформой) или внешние (Grafana, Datadog, Prometheus).

Требования к дашборду

Слой-1 (команда on-call) — самые важные метрики: availability, error rate, latency. Минимум текста.
Слой-2 (инженеры сервиса) — детальные метрики (per-endpoint, per-клиент).
Слой-3 (менеджмент) — тренды за неделю/месяц, SLA/SLO compliance, затраты.

Пример дашборда для Operational Review

Метрика	Описание	Порог	Статус
Availability	Процент успешных запросов	>99.9%	✅ 99.95%
P99 Latency	Максимальная задержка для 99% запросов	<500 ms	❌ 620 ms
Error rate	Доля ошибочных ответов (5xx)	<0.1%	✅ 0.02%
Throughput	Запросов в минуту	–	15k rpm

6. Процесс устранения проблем (High/Medium/Low)

После ORR или Operational Review все выявленные проблемы заносятся в трекинг-систему (Jira, Linear). Для каждого уровня задаются сроки:

High — блокирует запуск. Команда обязана решить до релиза. Эскалация до менеджера, если не решено в течение 24 часов.
Medium — 90 дней на исправление. Если не решено, автоматически повышается до High.
Low — в бэклог с пометкой "operational debt". Может быть закрыт, если не влияет на эксплуатацию.

Мониторинг исполнения ведётся на специальном дашборде "Operational Excellence Dashboard", доступном всей организации.

7. Интеграция с CI/CD и GitOps

Operational excellence в Harness встроена прямо в пайплайны доставки. Например:

Quality gates — перед деплоем обязательно должен пройти ORR (или подтверждение, что фича не требует нового ORR).
Runbook validation — автоматическая проверка, что runbook для новых фич существует и соответствует шаблону.
SLO checks — если после деплоя метрики degraded, пайплайн автоматически откатывает версию.

Такой подход гарантирует, что эксплуатационные требования соблюдаются не на словах, а зашиты в автоматизированные проверки.

8. Роль автоматизации в operational excellence

Для снижения нагрузки на инженеров, Harness стремится автоматизировать рутинные аспекты:

Auto-remediation — при срабатывании определённых алертов запускается скрипт (например, перезапуск подов, увеличение реплик).
Chaos engineering — регулярные эксперименты с внесением отказов (выключение узлов, сетевые задержки) для проверки устойчивости без участия человека.
Cost optimisation — автоматические рекомендации по изменению типов инстансов или использованию spot-ресурсов.

Тем не менее, культура "spin the wheel" остаётся человеко-центричной, потому что автоматизация не может выявить все организационные слепые зоны.

9. Пример из практики: Запуск нового микросервиса

Рассмотрим гипотетический сценарий, как работает процесс для новой фичи "рекомендательный движок":

До разработки Команда проводит ORR. Выявлены High items: нет мониторинга модели, не настроены алерты на дрейф данных. Medium: недостаточная документация по эндпоинтам. Low: устаревшие версии библиотек.
После ревью Разработка начинается только после закрытия High (настроен дашборд для ML-метрик). Medium заводится в бэклог.
Еженедельно Team A участвует в Operational Review. Один из инженеров замечает рост latency после последнего деплоя. Сравнивают с прошлой неделей — выявляют проблему в конфигурации кэша.
Spin the wheel через 2 недели команда B ревьюит дашборды Team A. Находят, что alert thresholds для error rate слишком низкие — много ложных срабатываний. Команда A корректирует настройки.
Через 90 дней Medium item (документация) не сделан — автоматически повышен до High, блокирует следующий релиз. Команда срочно пишет документацию.

Такой цикл позволяет поддерживать высокий уровень надёжности даже при быстром выпуске фич.

10. Преимущества и вызовы

Преимущества

Проблемы обнаруживаются до того, как повлияют на пользователей.
Снижение количества P1/P2 инцидентов.
Равномерное распределение ответственности за эксплуатацию между всеми командами.
Ускорение on-call обучения — новички быстрее входят в курс через кросс-ревью.

Вызовы

Бюрократизация — если делать ORR слишком детально, разработка замедляется.
Усталость от встреч — еженедельные reviews могут отнимать время.
Культурное сопротивление — команды могут воспринимать "spin the wheel" как аудит, а не как помощь.

Чтобы избежать этого, Harness делает акцент на blameless культуру и обучение.

Пет-проект для закрепления

Задача Реализовать упрощённую версию процесса ORR + Operational Reviews для небольшого веб-сервиса (например, API погоды).

Инструменты

Grafana или локально поднятый Prometheus + Grafana (можно через Docker Compose).
Python FastAPI для создания простого сервиса с искусственным добавлением латентности/ошибок.
Slack API (или эмуляция через console) для симуляции алертов.
Jira / Trello (или просто таблица) для трекинга проблем.

Шаги:

Разверните сервис, который отдаёт погоду случайным городом. Добавьте рандомные ошибки (иногда 500-е, иногда задержки >1 сек).
Составьте ORR-документ для сервиса: архитектура (один эндпоинт), зависимости (внешний API погоды? если нет, то искусственные), план мониторинга (латенси, error rate, запросов/мин), безопасность (нет чувствительных данных), стоимость (бесплатно). Придумайте один High item: "нет кэша, нагрузка >10 req/s приведёт к падению".
Настройте дашборд в Grafana с тремя панелями: латенси (p50/p99), ошибки (count per minute), запросы/сек.
Проведите симуляцию Operational Review: соберите виртуальную команду (можно самому с записью в заметки). Посмотрите на дашборд, найдите тренды — растёт error rate после определённого времени суток. Запишите проблему (Medium) — "высокая нагрузка в часы пик".
Реализуйте Spin the wheel: попросите коллегу (или воображаемого коллегу) посмотреть на ваш дашборд и заметить, что у вас нет аптайм-мониторинга. Добавьте ещё одну панель с аптаймом.
Внесите все найденные проблемы в трекер (Trello колонки: High/Medium/Low). Сымитируйте закрытие High (уберите зависимость от внешнего API, добавьте кэш в памяти или Redis). Продумайте, как автоматизировать проверку (например, добавить health check).

Ожидаемый результат

Понимание цикла ORR → разработка → мониторинг → ревью → улучшение.
Готовый дашборд для сервиса с базовыми метриками.
Опыт кросс-ревью — пусть даже в упрощённом виде.
Умение объяснить разницу между High/Medium/Low и их влиянием на roadmap.

Связь с другими вопросами

Вопрос	Тема
101	Основы SRE (Site Reliability Engineering) и SLA/SLO
205	Мониторинг ML-систем: метрики, дашборды, алерты
310	CI/CD пайплайны для микросервисов и quality gates
450	Управление инцидентами в MLOps
512	Культура blameless postmortem и непрерывное улучшение
635	Observability (логи, метрики, трейсы) для LLM-сервисов