Как делать rollback промпта (auto-rollback при деградации метрик)?

Q: 1. Термин: Rollback промпта (Prompt Rollback)

**[[Вики/регистрация промптов\|Prompt Registry]]** — централизованное хранилище версий промптов с метаданными (дата, автор, метрики A/B-тестирования, статус). Каждая версия имеет [[Вики/UUID\|уникальный идентификатор]] (например, `prompt_v3`). При деплое [[Вики/candidate\|новая версия]] получает статус `[[Вики/canary deployment\|canary]]`, затем, после валидации, `active`. Если метрики деградируют, [[Вики/Trigger\|триггер]] переводит статус обратно на предыдущую `active`.

Q: 3. Триггеры и пороги: как настроить автоматический откат

Формула для порога если (metric_current - metric_baseline) / metric_baseline > threshold_relative → rollback Пример: [[Вики/accuracy\|faithfulness]] [[Вики/baseline\|baseline]] = 0.92, threshold_relative = -0.05 → [[Вики/fallback model\|rollback]] при значении < 0.874. **Пример реализации на [[Вики/SQL\|Python]] (упрощённо):**

Q: 4. Архитектура auto-rollback pipeline

Процесс [[Вики/rollback\|auto-rollback]] включает несколько этапов: 1. Dеploy новой версии промпта → она помечается как `[[Вики/canary deployment\|canary]]` в [[Вики/регистрация промптов\|Prompt Registry]]. Трафик начинает постепенно переключаться (например, 1% → 5% → 20% → 100%).

Q: 5. Стратегии развёртывания: Canary и Gradual Rollout

Чтобы минимизировать влияние плохого промпта, используют [[Вики/canary deployment\|канареечное развёртывание]] ([[Вики/canary deployment\|canary deployment]]). Суть: сначала новый [[Вики/prompt\|промпт]] получает малый процент трафика, затем при стабильных метриках постепенно увеличивается.

Q: 6. Alert и Postmortem: обязательные шаги

- Имя метрики-триггера и её [[Вики/Value\|значение]] - Версию промпта, которая была откачена - Ссылку на [[Вики/Dashboard\|дашборд]] с метриками - Cсылку на [[Вики/Diff\|diff]] промптов (сравнение старой и новой версии) 1. Что изменилось в промпте (был ли изменён [[Вики/промпт агента\|system message]], добавлены ли новые инструкции).

Q: 7. Инструменты для управления версиями промптов и auto-rollback

На практике auto-rollback интегрируется с платформами для LLM-приложений: | Инструмент | Функции | |------------|---------| | [[Вики/LangSmith\|LangSmith]] | Prompt Registry, мониторинг, A/B тесты, auto-rollback по порогам | | [[Вики/MLflow\|MLflow]] | Версионирование промптов, метрики, возможность скриптов для rollback |

Краткий тезис

Auto-rollback промпта — это механизм автоматического возврата к предыдущей стабильной версии системного промпта, если после деплоя новой версии наблюдается деградация ключевых метрик (faithfulness, error rate, latency). Он критичен для поддержания качества ответов в production-среде, особенно в RAG|Agentic RAG, где промпты управляют поведением агентов. Реализация включает Prompt Registry, мониторинг метрик в реальном времени, пороговые триггеры и канареечное развёртывание.

1. Термин: Rollback промпта (Prompt Rollback)

Rollback промпта — это процесс отката к предыдущей (стабильной) версии системного промпта после обнаружения ухудшения качества ответов или производительности. В отличие от обычного деплоя кода, промпты могут изменяться часто и независимо, что требует автоматизации rollback'а на уровне Prompt Registry.

Prompt Registry — централизованное хранилище версий промптов с метаданными (дата, автор, метрики A/B-тестирования, статус). Каждая версия имеет уникальный идентификатор (например, prompt_v3). При деплое новая версия получает статус canary, затем, после валидации, active. Если метрики деградируют, триггер переводит статус обратно на предыдущую active.

Зачем нужен auto-rollback

Стабильность: автоматически предотвращает ухудшение пользовательского опыта.
Скорость итераций: команда может экспериментировать, не боясь «поломать» production.
Ресурсосбережение: ручной откат занимает минуты/часы, авто — секунды.

2. Ключевые метрики для мониторинга промптов

Чтобы определить деградацию, нужно измерять несколько аспектов. Используются как оффлайн-метрики (на тестовых датасетах перед деплоем), так и онлайн-метрики (в real-time на живом трафике).

Метрика	Описание	Тип	Типичный порог для rollback
Faithfulness	Доля ответов, которые полностью соответствуют контексту (без галлюцинаций).	Онлайн	Падение >5% относительно baseline
Answer Relevance	Релевантность ответа запросу (оценка LLM-судьёй).	Онлайн	Падение >5%
Error Rate	Доля запросов, завершившихся ошибкой (timeout, exception).	Онлайн	Рост >1% (абсолютный)
Latency (p95)	95-й перцентиль времени ответа.	Онлайн	Рост >50%
Token Usage	Среднее количество токенов на ответ.	Онлайн	Рост >20% (экономический триггер)

Faithfulness — ключевая метрика для RAG. Она оценивает, насколько ответ LLM соответствует предоставленным документам. Падение faithfulness часто указывает на то, что новый промпт заставляет LLM игнорировать контекст или галлюцинировать.

3. Триггеры и пороги: как настроить автоматический откат

Auto-rollback активируется, если скользящее среднее метрики за окно (например, 10 минут) выходит за порог. Использование скользящего среднего сглаживает кратковременные выбросы.

Формула для порога

если (metric_current - metric_baseline) / metric_baseline > threshold_relative → rollback

Пример: faithfulness baseline = 0.92, threshold_relative = -0.05 → rollback при значении < 0.874.

Пример реализации на Python (упрощённо):

class RollingMetric:
    def __init__(self, window_size=600, baseline_metric=None):
        self.window = deque(maxlen=window_size)
        self.baseline = baseline_metric or 1.0

    def add(self, value):
        self.window.append(value)

    @property
    def current_mean(self):
        return sum(self.window) / max(len(self.window), 1)

def check_rollback_triggers(metrics: dict, config: dict) -> bool:
    """
    metrics: {'faithfulness': RollingMetric, 'error_rate': RollingMetric, ...}
    config: {'faithfulness_threshold': 0.95, 'error_rate_threshold': 1.01, ...}
    """
    rollback_needed = False
    if metrics['faithfulness'].current_mean / metrics['faithfulness'].baseline < config['faithfulness_threshold']:
        rollback_needed = True
    if metrics['error_rate'].current_mean / metrics['error_rate'].baseline > config['error_rate_threshold']:
        rollback_needed = True
    # ... другие метрики
    return rollback_needed

Типичная конфигурация триггеров

Faithfulness: порог 0.95 (т.е. снижение на 5% от baseline)
Error Rate: порог 1.01 (рост на 1% абсолютный, т.е. с 1% до 2%)
Latency порог 1.5 (рост на 50%)

Важно настраивать пороги отдельно для каждого приложения, исходя из допусков бизнеса.

4. Архитектура auto-rollback pipeline

Процесс auto-rollback включает несколько этапов:

Dеploy новой версии промпта → она помечается как canary в Prompt Registry. Трафик начинает постепенно переключаться (например, 1% → 5% → 20% → 100%).
Мониторинг метрик (агенты собирают метрики с каждого запроса и отправляют в систему мониторинга — Prometheus, Grafana, собственный трекер).
Триггер (скользящее окно метрик сравнивается с baseline, если порог превышен → запускается rollback).
Switch трафика: Prompt Registry меняет active версию на предыдущую стабильную (prompt_v2). Все новые запросы сразу начинают использовать старую версию.
Alert (уведомление команды в Slack/PagerDuty с причиной и логом метрик).
Postmortem (автоматически собирается дашборд: метрики до/после деплоя, логи, изменения в промпте).

Диаграмма pipeline (текстовая):

Новый промпт -> Prompt Registry (canary) -> Traffic Shifter (5% трафика) -> 
Метрики -> Rollback Decision (если деградация) -> Switch active -> Alert -> Postmortem

5. Стратегии развёртывания: Canary и Gradual Rollout

Чтобы минимизировать влияние плохого промпта, используют канареечное развёртывание (canary deployment). Суть: сначала новый промпт получает малый процент трафика, затем при стабильных метриках постепенно увеличивается.

Стратегия	Описание	Преимущества	Недостатки
Canary	Новый промпт на N% запросов, остальные — старый.	Контролируемый эксперимент	Нужно разделение трафика (можно по user_id или рандомно)
Blue-Green	Два идентичных экземпляра (текущий и новый). Весь трафик мгновенно переключается на новый, при деградации — назад.	Быстрый откат	Требует удвоения ресурсов
Gradual Rollout	Постепенное увеличение процента (1% → 10% → 50% → 100%).	Плавное наращивание	Занимает больше времени

Для промптов чаще используют Canary: он не требует дополнительных инстансов и легко интегрируется с Prompt Registry.

6. Alert и Postmortem: обязательные шаги

Auto-rollback — это не просто действие, а событие, которое нужно документировать.

Alert должен содержать:

Имя метрики-триггера и её значение
Версию промпта, которая была откачена
Ссылку на дашборд с метриками
Cсылку на diff промптов (сравнение старой и новой версии)

Postmortem — разбор причин деградации:

Что изменилось в промпте (был ли изменён system message, добавлены ли новые инструкции).
Какие метрики пострадали (график до/после).
Корневая причина (например, новый промпт требовал больше контекста, и LLM начал выдумывать; или инструкция по формату ответа была слишком жёсткой, что увеличило latency).
План исправления (скорректировать промпт, добавить дополнительные тесты).
Меры (добавить новый тест в CI/CD, расширить набор оффлайн-проверок).

7. Инструменты для управления версиями промптов и auto-rollback

На практике auto-rollback интегрируется с платформами для LLM-приложений:

Инструмент	Функции
LangSmith	Prompt Registry, мониторинг, A/B тесты, auto-rollback по порогам
MLflow	Версионирование промптов, метрики, возможность скриптов для rollback
Weights & Biases (W&B)	Experiment tracking, сравнение промптов, кастомные триггеры
OpenAI (на уровне API)	Использование версий моделей, ручной rollback (нет встроенного auto)
Собственный сервис	Микросервис на FastAPI, хранящий версии в БД, с интеграцией с Prometheus/Grafana

8. Ограничения и риски auto-rollback

Ложно-положительные срабатывания: если метрика временно «скакнула» (например, из-за нагрузки на датацентр), происходит лишний откат. Решение — использовать скользящее окно с усреднением и Deadband (небольшая зона нечувствительности).
Зависимость от качества мониторинга если метрика некорректно измеряется, rollback может быть неправильным.
Регрессия по другим метрикам откат может вернуть старую проблему (например, низкую answer relevance). Нужно выбирать приоритетные метрики для триггера.
Гонка версий если много последовательных деплоев, может возникнуть каскад откатов. Рекомендуется блокировать деплои на время валидации новой версии.

Пет-проект для закрепления

Задача Написать простой симулятор auto-rollback промпта, который:

Хранит версии промптов (в памяти или SQLite)
Позволяет «деплоить» новую версию
Периодически получает «метрики» (симулированные случайные значения)
Если метрики падают ниже порога — автоматически откатывает и выводит alert

Инструменты Python (asyncio, sqlite3, random).
Шаги:

Создать класс PromptRegistry с методами add_version, get_active, rollback.
Создать класс MetricMonitor, который симулирует сбор метрик (например, faithfulness = 0.9 + noise).
Реализовать RollbackController, который каждые 5 секунд проверяет скользящее среднее faithfulness и, если < 0.85, вызывает rollback.
В main запустить имитацию: деплой новой версии, которая даёт падение faithfulness (можно сгенерировать смещённое распределение). Убедиться, что rollback срабатывает.

Ожидаемый результат Консольный лог:

[12:00:00] Deploy prompt_v2 (active: prompt_v1)
[12:05:00] Metric faithfulness: mean 0.78 (threshold 0.85)
[12:05:01] ROLLBACK triggered! Switching to prompt_v1
[12:05:02] Alert sent: faithfulness dropped from 0.90 to 0.78

Этот проект закрепит понимание архитектуры.

Связь с другими вопросами

Вопрос	Тема
803	Как версионировать промпты?
801	Как настроить мониторинг качества в Agentic RAG?
802	Как проводить A/B тестирование промптов?
806	Как управлять промптами в production?
807	Какие метрики качества важны для агентов?

Краткий тезис

1. Термин: Rollback промпта (Prompt Rollback)

Зачем нужен auto-rollback

Стабильность: автоматически предотвращает ухудшение пользовательского опыта.
Скорость итераций: команда может экспериментировать, не боясь «поломать» production.
Ресурсосбережение: ручной откат занимает минуты/часы, авто — секунды.

2. Ключевые метрики для мониторинга промптов

Метрика	Описание	Тип	Типичный порог для rollback
Faithfulness	Доля ответов, которые полностью соответствуют контексту (без галлюцинаций).	Онлайн	Падение >5% относительно baseline
Answer Relevance	Релевантность ответа запросу (оценка LLM-судьёй).	Онлайн	Падение >5%
Error Rate	Доля запросов, завершившихся ошибкой (timeout, exception).	Онлайн	Рост >1% (абсолютный)
Latency (p95)	95-й перцентиль времени ответа.	Онлайн	Рост >50%
Token Usage	Среднее количество токенов на ответ.	Онлайн	Рост >20% (экономический триггер)

3. Триггеры и пороги: как настроить автоматический откат

Формула для порога

если (metric_current - metric_baseline) / metric_baseline > threshold_relative → rollback

Пример: faithfulness baseline = 0.92, threshold_relative = -0.05 → rollback при значении < 0.874.

Пример реализации на Python (упрощённо):

class RollingMetric:
    def __init__(self, window_size=600, baseline_metric=None):
        self.window = deque(maxlen=window_size)
        self.baseline = baseline_metric or 1.0

    def add(self, value):
        self.window.append(value)

    @property
    def current_mean(self):
        return sum(self.window) / max(len(self.window), 1)

def check_rollback_triggers(metrics: dict, config: dict) -> bool:
    """
    metrics: {'faithfulness': RollingMetric, 'error_rate': RollingMetric, ...}
    config: {'faithfulness_threshold': 0.95, 'error_rate_threshold': 1.01, ...}
    """
    rollback_needed = False
    if metrics['faithfulness'].current_mean / metrics['faithfulness'].baseline < config['faithfulness_threshold']:
        rollback_needed = True
    if metrics['error_rate'].current_mean / metrics['error_rate'].baseline > config['error_rate_threshold']:
        rollback_needed = True
    # ... другие метрики
    return rollback_needed

Типичная конфигурация триггеров

Faithfulness: порог 0.95 (т.е. снижение на 5% от baseline)
Error Rate: порог 1.01 (рост на 1% абсолютный, т.е. с 1% до 2%)
Latency порог 1.5 (рост на 50%)

Важно настраивать пороги отдельно для каждого приложения, исходя из допусков бизнеса.

4. Архитектура auto-rollback pipeline

Процесс auto-rollback включает несколько этапов:

Dеploy новой версии промпта → она помечается как canary в Prompt Registry. Трафик начинает постепенно переключаться (например, 1% → 5% → 20% → 100%).
Мониторинг метрик (агенты собирают метрики с каждого запроса и отправляют в систему мониторинга — Prometheus, Grafana, собственный трекер).
Триггер (скользящее окно метрик сравнивается с baseline, если порог превышен → запускается rollback).
Switch трафика: Prompt Registry меняет active версию на предыдущую стабильную (prompt_v2). Все новые запросы сразу начинают использовать старую версию.
Alert (уведомление команды в Slack/PagerDuty с причиной и логом метрик).
Postmortem (автоматически собирается дашборд: метрики до/после деплоя, логи, изменения в промпте).

Диаграмма pipeline (текстовая):

Новый промпт -> Prompt Registry (canary) -> Traffic Shifter (5% трафика) -> 
Метрики -> Rollback Decision (если деградация) -> Switch active -> Alert -> Postmortem

5. Стратегии развёртывания: Canary и Gradual Rollout

Стратегия	Описание	Преимущества	Недостатки
Canary	Новый промпт на N% запросов, остальные — старый.	Контролируемый эксперимент	Нужно разделение трафика (можно по user_id или рандомно)
Blue-Green	Два идентичных экземпляра (текущий и новый). Весь трафик мгновенно переключается на новый, при деградации — назад.	Быстрый откат	Требует удвоения ресурсов
Gradual Rollout	Постепенное увеличение процента (1% → 10% → 50% → 100%).	Плавное наращивание	Занимает больше времени

Для промптов чаще используют Canary: он не требует дополнительных инстансов и легко интегрируется с Prompt Registry.

6. Alert и Postmortem: обязательные шаги

Auto-rollback — это не просто действие, а событие, которое нужно документировать.

Alert должен содержать:

Имя метрики-триггера и её значение
Версию промпта, которая была откачена
Ссылку на дашборд с метриками
Cсылку на diff промптов (сравнение старой и новой версии)

Postmortem — разбор причин деградации:

Что изменилось в промпте (был ли изменён system message, добавлены ли новые инструкции).
Какие метрики пострадали (график до/после).
Корневая причина (например, новый промпт требовал больше контекста, и LLM начал выдумывать; или инструкция по формату ответа была слишком жёсткой, что увеличило latency).
План исправления (скорректировать промпт, добавить дополнительные тесты).
Меры (добавить новый тест в CI/CD, расширить набор оффлайн-проверок).

7. Инструменты для управления версиями промптов и auto-rollback

На практике auto-rollback интегрируется с платформами для LLM-приложений:

Инструмент	Функции
LangSmith	Prompt Registry, мониторинг, A/B тесты, auto-rollback по порогам
MLflow	Версионирование промптов, метрики, возможность скриптов для rollback
Weights & Biases (W&B)	Experiment tracking, сравнение промптов, кастомные триггеры
OpenAI (на уровне API)	Использование версий моделей, ручной rollback (нет встроенного auto)
Собственный сервис	Микросервис на FastAPI, хранящий версии в БД, с интеграцией с Prometheus/Grafana

8. Ограничения и риски auto-rollback

Ложно-положительные срабатывания: если метрика временно «скакнула» (например, из-за нагрузки на датацентр), происходит лишний откат. Решение — использовать скользящее окно с усреднением и Deadband (небольшая зона нечувствительности).
Зависимость от качества мониторинга если метрика некорректно измеряется, rollback может быть неправильным.
Регрессия по другим метрикам откат может вернуть старую проблему (например, низкую answer relevance). Нужно выбирать приоритетные метрики для триггера.
Гонка версий если много последовательных деплоев, может возникнуть каскад откатов. Рекомендуется блокировать деплои на время валидации новой версии.

Пет-проект для закрепления

Задача Написать простой симулятор auto-rollback промпта, который:

Хранит версии промптов (в памяти или SQLite)
Позволяет «деплоить» новую версию
Периодически получает «метрики» (симулированные случайные значения)
Если метрики падают ниже порога — автоматически откатывает и выводит alert

Инструменты Python (asyncio, sqlite3, random).
Шаги:

Создать класс PromptRegistry с методами add_version, get_active, rollback.
Создать класс MetricMonitor, который симулирует сбор метрик (например, faithfulness = 0.9 + noise).
Реализовать RollbackController, который каждые 5 секунд проверяет скользящее среднее faithfulness и, если < 0.85, вызывает rollback.
В main запустить имитацию: деплой новой версии, которая даёт падение faithfulness (можно сгенерировать смещённое распределение). Убедиться, что rollback срабатывает.

Ожидаемый результат Консольный лог:

[12:00:00] Deploy prompt_v2 (active: prompt_v1)
[12:05:00] Metric faithfulness: mean 0.78 (threshold 0.85)
[12:05:01] ROLLBACK triggered! Switching to prompt_v1
[12:05:02] Alert sent: faithfulness dropped from 0.90 to 0.78

Этот проект закрепит понимание архитектуры.

Связь с другими вопросами

Вопрос	Тема
803	Как версионировать промпты?
801	Как настроить мониторинг качества в Agentic RAG?
802	Как проводить A/B тестирование промптов?
806	Как управлять промптами в production?
807	Какие метрики качества важны для агентов?

Как делать rollback промпта (auto-rollback при деградации метрик)?

Краткий тезис

1. Термин: Rollback промпта (Prompt Rollback)

2. Ключевые метрики для мониторинга промптов

3. Триггеры и пороги: как настроить автоматический откат

4. Архитектура auto-rollback pipeline

5. Стратегии развёртывания: Canary и Gradual Rollout

6. Alert и Postmortem: обязательные шаги

7. Инструменты для управления версиями промптов и auto-rollback

8. Ограничения и риски auto-rollback

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как делать rollback промпта (auto-rollback при деградации метрик)?

Краткий тезис

1. Термин: Rollback промпта (Prompt Rollback)

2. Ключевые метрики для мониторинга промптов

3. Триггеры и пороги: как настроить автоматический откат

4. Архитектура auto-rollback pipeline

5. Стратегии развёртывания: Canary и Gradual Rollout

6. Alert и Postmortem: обязательные шаги

7. Инструменты для управления версиями промптов и auto-rollback

8. Ограничения и риски auto-rollback

Пет-проект для закрепления

Связь с другими вопросами

Навигация