Что такое «эскалация человеку» (human escalation) и как её проектировать?

Q: 2. Когда возникает необходимость в эскалации: типовые сценарии

- [[Вики/Low confidence\|Низкая уверенность]]: [[Вики/model\|модель]] оценивает вероятность правильного ответа ниже порога (например, < 0.7). - Отсутствие прав: [[Вики/промпт агента\|запрос]] требует доступа к данным, запрещённым для автономной обработки (например, [[Вики/PII\|персональные данные]] клиента).

Q: 3. Компоненты проектирования эскалации (архитектурный взгляд)

Проектирование [[Вики/human-in-the-loop\|human escalation]] включает четыре основных компонента, которые нужно определить на этапе разработки: - **[[Вики/Trigger\|Trigger]] ([[Вики/Trigger\|триггер]])** — условие, при котором инициируется [[Вики/escalation\|эскалация]]. - **[[Вики/context package\|Context package]] ([[Вики/context package\|контекстный пакет]])** — [[Вики/dataset\|набор данных]], передаваемых человеку для принятия решения.

Q: 4. Детальный разбор триггеров

| Триггер | Описание | Пример реализации | |---------|----------|------------------| | Порог уверенности | Оценка LLM (logprobs или специальный классификатор) ниже заданного значения | `if confidence = 3` |

Q: 6. Выбор канала эскалации

Канал должен обеспечивать быструю доставку и удобный [[Вики/UI\|интерфейс]] для ответа. Сравнение популярных каналов: | Канал | Время доставки | Возможность ответа | Интеграция | |-------|----------------|--------------------|------------| | Email | несколько минут | email reply | SMTP, SendGrid |

Краткий тезис

Эскалация человеку (human escalation) — это механизм передачи управления или запроса от AI-агента к человеку-оператору, когда агент не может выполнить задачу автономно. Проектирование такой эскалации требует чёткого определения триггеров (confidence|низкая уверенность, отсутствие прав, повторные ошибки), формирования контекстного пакета (история диалога, попытки агента, варианты решений), выбора канала доставки (email, Slack, дашборд) и настройки таймаутов с fallback-логикой. Правильная эскалация повышает надёжность системы и доверие пользователей.

1. Что такое human escalation и зачем она нужна

Human escalation — это процесс передачи задачи от AI-агента человеку, когда агент не способен обработать запрос с достаточной уверенностью или в рамках заданных ограничений. В контексте Agentic RAG агент может столкнуться с неоднозначными вопросами, запросами, требующими доступа к конфиденциальным данным, или с техническими сбоями. Эскалация позволяет не оставлять пользователя без ответа, а перенаправить задачу специалисту. Ключевые цели: повышение точности, обеспечение безопасности, улучшение пользовательского опыта.

2. Когда возникает необходимость в эскалации: типовые сценарии

Агент может инициировать эскалацию в следующих случаях:

Низкая уверенность: модель оценивает вероятность правильного ответа ниже порога (например, < 0.7).
Отсутствие прав: запрос требует доступа к данным, запрещённым для автономной обработки (например, персональные данные клиента).
Повторная ошибка: после нескольких попыток агент не может корректно выполнить действие или выдаёт некорректный ответ.
Отсутствие необходимого инструмента: агент не располагает нужным API или базой знаний.
Неоднозначность: запрос можно интерпретировать по-разному, и требуется уточнение от человека.

3. Компоненты проектирования эскалации (архитектурный взгляд)

Проектирование human escalation включает четыре основных компонента, которые нужно определить на этапе разработки:

Trigger (триггер) — условие, при котором инициируется эскалация.
Context package (контекстный пакет) — набор данных, передаваемых человеку для принятия решения.
Channel (канал) — способ доставки уведомления оператору.
Timeout & Fallback — реакция системы, если человек не отвечает вовремя.

4. Детальный разбор триггеров

Триггеры могут быть настроены на разные уровни. Рассмотрим основные:

Триггер	Описание	Пример реализации
Порог уверенности	Оценка LLM (logprobs или специальный классификатор) ниже заданного значения	`if confidence < 0.7: escalate()`
Отсутствие результата	После N попыток агент не получил ответ от инструмента	`retry_count >= 3`
Отсутствие прав	Роль агента не позволяет выполнить действие	проверка RBAC перед вызовом
Детекция аномалий	Высокая негативная тональность запроса или подозрительные паттерны	ML-модель поверх входа

Важно настраивать триггеры так, чтобы балансировать между автономией и безопасностью: слишком частые эскалации снижают эффективность, редкие – повышают риски.

5. Context package: что именно передаётся человеку

Человек-оператор должен получить всю информацию для быстрого принятия решения. Контекстный пакет обычно включает:

Историю диалога: последние N сообщений пользователя и ответы агента.
Попытки агента: какие инструменты вызывались, их результаты, ошибки.
Варианты решений: предложения агента с указанием уверенности.
Метаданные: временные метки, ID сессии, user_id.
Ожидаемое действие: что требуется от человека (подтвердить, выбрать вариант, дать инструкцию).

Пример структуры пакета в Python:

context_package = {
    "session_id": "abc123",
    "user_query": "Как изменить имя в договоре?",
    "agent_log": [
        {"tool": "search_docs", "result": "No relevant document", "confidence": 0.4},
        {"tool": "generate_answer", "result": "I don't know", "confidence": 0.3}
    ],
    "suggested_actions": ["Проверить шаблон договора", "Позвонить пользователю"],
    "escalation_reason": "low_confidence",
    "timestamp": "2025-03-15T10:30:00Z"
}

6. Выбор канала эскалации

Канал должен обеспечивать быструю доставку и удобный интерфейс для ответа. Сравнение популярных каналов:

Канал	Время доставки	Возможность ответа	Интеграция
Email	несколько минут	email reply	SMTP, SendGrid
Slack	секунды	сообщения, кнопки	Slack API, webhooks
Внутренний дашборд	в реальном времени	web-интерфейс	REST API
SMS	секунды	короткий текст	Twilio

Рекомендуется использовать Slack или аналогичный мессенджер для срочных эскалаций, так как он поддерживает интерактивные элементы (кнопки, dropdown). Для менее критичных подойдёт email с структурированным письмом.

7. Обработка ответа от человека

После того как оператор принял решение, необходимо корректно обработать его ответ. Возможные режимы:

Автоматическое выполнение: оператор нажимает кнопку "Одобрить", и агент выполняет предложенное действие.
Ручное вмешательство: оператор пишет инструкцию, которую агент затем исполняет.
Полное перехват управления: оператор отвечает пользователю напрямую, минуя агента.

Для каждого режима нужно определить, как ответ человека преобразуется в действие агента. Например, через очередь сообщений или прямой вызов API.

8. Timeout и fallback-стратегии

Если оператор не отвечает в заданное время, система должна предпринять дополнительные шаги. Типовые стратегии:

Повторная эскалация: через N минут отправить уведомление повторно.
Эскалация другому оператору: если есть группа поддержки.
Fallback-ответ агентом: извиниться и предложить альтернативу (например, "Попробуйте задать вопрос позже").
Escalation to supervisor: если задействованы несколько уровней.

Пример настройки таймаута

timeout: 300 секунд
on_timeout:
  - action: send_reminder
    message: "Напоминание: ожидается ответ по задаче {session_id}"
  - after_reminder: 120 секунд
    action: assign_to_backup_operator
  - after_backup: 300 секунд
    action: send_fallback_response("Извините, временно нет свободных операторов")

9. Мониторинг и метрики эскалации

Чтобы оценить эффективность эскалации, собирайте следующие метрики:

Escalation rate – доля запросов, требующих эскалации (норма: 5-15% для среднестатистической системы).
Average handling time – среднее время ответа оператора.
Resolution rate – успешность эскалаций (сколько задач решены после вмешательства человека).
False escalation rate – случаи, когда эскалация была ненужной (оператор мог не вмешиваться).
User satisfaction – оценка пользователя после эскалации.

Эти метрики помогают оптимизировать триггеры и контекстный пакет, снижая нагрузку на операторов.

10. Best practices и типичные ошибки

Рекомендации

Проектируйте эскалацию как часть fail-safe архитектуры, а не как случайную фичу.
Тестируйте триггеры на исторических данных: проверьте, какие запросы действительно требуют человека.
Давайте операторам возможность отключить эскалацию для конкретных типов запросов.
Обеспечьте аудит всех эскалаций (журналы для compliance).

Распространённые ошибки

Слишком высокий порог уверенности -> агент часто ошибается.
Слишком низкий -> много ложных эскалаций.
Передача неполного контекста -> оператор тратит время на выяснение деталей.
Отсутствие таймаута -> зависшие запросы без ответа.

Пет-проект для закрепления

Задача Реализовать простого AI-агента на Python, который отвечает на вопросы по базе знаний. При низкой уверенности (< 0.6) он должен отправлять эскалацию в Slack-канал через webhook, ждать ответа не более 5 минут, а при отсутствии ответа — возвращать пользователю fallback-сообщение.

Инструменты

Python 3.10+
LangChain (или простой класс агента)
Slack SDK (slack_sdk) или requests для webhook
Логирование (logging)

Шаги:

Создайте класс SimpleAgent с методом answer(query).
Добавьте функцию check_confidence(response) — возвращает число от 0 до 1.
Если уверенность < 0.6, вызовите escalate_to_slack(query, agent_log).
Функция escalate_to_slack отправляет POST-запрос на Slack webhook с контекстом.
Запустите простой HTTP-сервер (Flask/FastAPI) для получения ответа от Slack (через команду /respond).
В обработчике /respond обновите статус эскалации.
Через asyncio или threading реализуйте таймаут 300 секунд; если ответ не получен — верните fallback.

Ожидаемый результат Рабочий прототип, где при вопросе "Что такое эскалация" (если агент не знает) уходит уведомление в Slack, а после ответа оператора или таймаута пользователь получает ответ.

Связь с другими вопросами

Вопрос	Тема
760	Что такое Agentic RAG и как он отличается от обычного RAG
761	Как проектировать multi-agent системы
763	Как обеспечить наблюдаемость (observability) в Agentic RAG
764	Как обрабатывать ошибки и исключения в агентных системах
765	Как тестировать AI-агентов

Краткий тезис

1. Что такое human escalation и зачем она нужна

2. Когда возникает необходимость в эскалации: типовые сценарии

Агент может инициировать эскалацию в следующих случаях:

Низкая уверенность: модель оценивает вероятность правильного ответа ниже порога (например, < 0.7).
Отсутствие прав: запрос требует доступа к данным, запрещённым для автономной обработки (например, персональные данные клиента).
Повторная ошибка: после нескольких попыток агент не может корректно выполнить действие или выдаёт некорректный ответ.
Отсутствие необходимого инструмента: агент не располагает нужным API или базой знаний.
Неоднозначность: запрос можно интерпретировать по-разному, и требуется уточнение от человека.

3. Компоненты проектирования эскалации (архитектурный взгляд)

Проектирование human escalation включает четыре основных компонента, которые нужно определить на этапе разработки:

Trigger (триггер) — условие, при котором инициируется эскалация.
Context package (контекстный пакет) — набор данных, передаваемых человеку для принятия решения.
Channel (канал) — способ доставки уведомления оператору.
Timeout & Fallback — реакция системы, если человек не отвечает вовремя.

4. Детальный разбор триггеров

Триггеры могут быть настроены на разные уровни. Рассмотрим основные:

Триггер	Описание	Пример реализации
Порог уверенности	Оценка LLM (logprobs или специальный классификатор) ниже заданного значения	`if confidence < 0.7: escalate()`
Отсутствие результата	После N попыток агент не получил ответ от инструмента	`retry_count >= 3`
Отсутствие прав	Роль агента не позволяет выполнить действие	проверка RBAC перед вызовом
Детекция аномалий	Высокая негативная тональность запроса или подозрительные паттерны	ML-модель поверх входа

5. Context package: что именно передаётся человеку

Историю диалога: последние N сообщений пользователя и ответы агента.
Попытки агента: какие инструменты вызывались, их результаты, ошибки.
Варианты решений: предложения агента с указанием уверенности.
Метаданные: временные метки, ID сессии, user_id.
Ожидаемое действие: что требуется от человека (подтвердить, выбрать вариант, дать инструкцию).

Пример структуры пакета в Python:

context_package = {
    "session_id": "abc123",
    "user_query": "Как изменить имя в договоре?",
    "agent_log": [
        {"tool": "search_docs", "result": "No relevant document", "confidence": 0.4},
        {"tool": "generate_answer", "result": "I don't know", "confidence": 0.3}
    ],
    "suggested_actions": ["Проверить шаблон договора", "Позвонить пользователю"],
    "escalation_reason": "low_confidence",
    "timestamp": "2025-03-15T10:30:00Z"
}

6. Выбор канала эскалации

Канал должен обеспечивать быструю доставку и удобный интерфейс для ответа. Сравнение популярных каналов:

Канал	Время доставки	Возможность ответа	Интеграция
Email	несколько минут	email reply	SMTP, SendGrid
Slack	секунды	сообщения, кнопки	Slack API, webhooks
Внутренний дашборд	в реальном времени	web-интерфейс	REST API
SMS	секунды	короткий текст	Twilio

7. Обработка ответа от человека

После того как оператор принял решение, необходимо корректно обработать его ответ. Возможные режимы:

Автоматическое выполнение: оператор нажимает кнопку "Одобрить", и агент выполняет предложенное действие.
Ручное вмешательство: оператор пишет инструкцию, которую агент затем исполняет.
Полное перехват управления: оператор отвечает пользователю напрямую, минуя агента.

8. Timeout и fallback-стратегии

Повторная эскалация: через N минут отправить уведомление повторно.
Эскалация другому оператору: если есть группа поддержки.
Fallback-ответ агентом: извиниться и предложить альтернативу (например, "Попробуйте задать вопрос позже").
Escalation to supervisor: если задействованы несколько уровней.

Пример настройки таймаута

timeout: 300 секунд
on_timeout:
  - action: send_reminder
    message: "Напоминание: ожидается ответ по задаче {session_id}"
  - after_reminder: 120 секунд
    action: assign_to_backup_operator
  - after_backup: 300 секунд
    action: send_fallback_response("Извините, временно нет свободных операторов")

9. Мониторинг и метрики эскалации

Чтобы оценить эффективность эскалации, собирайте следующие метрики:

Escalation rate – доля запросов, требующих эскалации (норма: 5-15% для среднестатистической системы).
Average handling time – среднее время ответа оператора.
Resolution rate – успешность эскалаций (сколько задач решены после вмешательства человека).
False escalation rate – случаи, когда эскалация была ненужной (оператор мог не вмешиваться).
User satisfaction – оценка пользователя после эскалации.

Эти метрики помогают оптимизировать триггеры и контекстный пакет, снижая нагрузку на операторов.

10. Best practices и типичные ошибки

Рекомендации

Проектируйте эскалацию как часть fail-safe архитектуры, а не как случайную фичу.
Тестируйте триггеры на исторических данных: проверьте, какие запросы действительно требуют человека.
Давайте операторам возможность отключить эскалацию для конкретных типов запросов.
Обеспечьте аудит всех эскалаций (журналы для compliance).

Распространённые ошибки

Слишком высокий порог уверенности -> агент часто ошибается.
Слишком низкий -> много ложных эскалаций.
Передача неполного контекста -> оператор тратит время на выяснение деталей.
Отсутствие таймаута -> зависшие запросы без ответа.

Пет-проект для закрепления

Инструменты

Python 3.10+
LangChain (или простой класс агента)
Slack SDK (slack_sdk) или requests для webhook
Логирование (logging)

Шаги:

Создайте класс SimpleAgent с методом answer(query).
Добавьте функцию check_confidence(response) — возвращает число от 0 до 1.
Если уверенность < 0.6, вызовите escalate_to_slack(query, agent_log).
Функция escalate_to_slack отправляет POST-запрос на Slack webhook с контекстом.
Запустите простой HTTP-сервер (Flask/FastAPI) для получения ответа от Slack (через команду /respond).
В обработчике /respond обновите статус эскалации.
Через asyncio или threading реализуйте таймаут 300 секунд; если ответ не получен — верните fallback.

Связь с другими вопросами

Вопрос	Тема
760	Что такое Agentic RAG и как он отличается от обычного RAG
761	Как проектировать multi-agent системы
763	Как обеспечить наблюдаемость (observability) в Agentic RAG
764	Как обрабатывать ошибки и исключения в агентных системах
765	Как тестировать AI-агентов

Что такое «эскалация человеку» (human escalation) и как её проектировать?

Краткий тезис

1. Что такое human escalation и зачем она нужна

2. Когда возникает необходимость в эскалации: типовые сценарии

3. Компоненты проектирования эскалации (архитектурный взгляд)

4. Детальный разбор триггеров

5. Context package: что именно передаётся человеку

6. Выбор канала эскалации

7. Обработка ответа от человека

8. Timeout и fallback-стратегии

9. Мониторинг и метрики эскалации

10. Best practices и типичные ошибки

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое «эскалация человеку» (human escalation) и как её проектировать?

Краткий тезис

1. Что такое human escalation и зачем она нужна

2. Когда возникает необходимость в эскалации: типовые сценарии

3. Компоненты проектирования эскалации (архитектурный взгляд)

4. Детальный разбор триггеров

5. Context package: что именно передаётся человеку

6. Выбор канала эскалации

7. Обработка ответа от человека

8. Timeout и fallback-стратегии

9. Мониторинг и метрики эскалации

10. Best practices и типичные ошибки

Пет-проект для закрепления

Связь с другими вопросами

Навигация