Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)?

Q: 1. Термины и контекст

**[[Вики/decoupling\|Explanation-decoupling]]** – разрыв между объяснением и реальным действием: [[Вики/AI agents\|агент]] может сгенерировать правдоподобное, но ложное объяснение (например, [[Вики/model\|модель]] утверждает, что выбрала инструмент из-за ключевых слов, хотя на самом деле решающим был другой фактор).

Q: 2. Зачем нужна оценка fidelity?

- Доверие пользователя: если [[Вики/agent\|агент]] объясняет свои действия неправильно, [[Вики/multi-tenant\|пользователь]] не сможет вовремя заметить ошибку. - [[Вики/Debugging\|Отладка]]: при разработке [[Вики/Multi-agent workflows\|multi-agent]] систем низкая [[Вики/Fidelity\|fidelity]] маскирует баги в цепочках рассуждений.

Q: 3. Проблема explanation-decoupling: откуда она берётся?

Причины: 1. [[Вики/training\|Обучение]] без контроля объяснений – [[Вики/GPT-4o\|LLM]] часто [[Вики/fine-tuning\|fine-tune]] только на конечные действия, объяснения генерируются post-hoc и не обязаны быть истинными. 2. [[Вики/Hallucination in reasoning\|Hallucination in reasoning]] – [[Вики/model\|модель]] может «выдумать» причину, похожую на те, что встречались в обучающих данных.

Q: 5. Метрика 2: Counterfactual fidelity

Проверяем: если бы [[Вики/agent\|агент]] принял другое действие (в альтернативном сценарии), объяснение было бы другим? Подход: 1. Собрать набор пар `(вход, действие)`, где для одного входа возможно несколько действий. 2. Для каждого `(x, a)` спросить агента: «What would you explain if you had chosen alternative [[Вики/action\|action]] `a_alt`?» (или сгенерировать контрфактическое объяснение специальным промптом).

Q: 6. Метрика 3: SHAP for LLM (атрибуция токенов)

Применение к [[Вики/Fidelity\|fidelity]]: 1. Для входа `x` и действия `a` посчитать SHAP-значения для всех токенов. 2. Сравнить важность токенов по [[Вики/SHAP\|SHAP]] с объяснением агента. 3. Если [[Вики/agent\|агент]] утверждает, что решение принято на основе токена T, но [[Вики/SHAP\|SHAP]] показывает, что вклад T нулевой → несоответствие.

Q: 7. Сравнение метрик

| Метрика | Что измеряет | Плюсы | Минусы | |---------|--------------|-------|--------| | Perturbation consistency | Чувствительность объяснения к изменениям входа | Простота, автоматизация | Требует специальных тест-кейсов | | Counterfactual fidelity | Различие объяснений для альтернативных действий | Проверяет причинность | Субъективно, сложно генерировать контрфакты |

Краткий тезис

fidelity|explanation fidelity|explanation Agent fidelity|explanation fidelity – это мера того, насколько объяснение, которое даёт AI-агент (например, «Я выбрал инструмент X, потому что...»), соответствует его фактическим внутренним решениям. Проблема explanation-decoupling возникает, когда объяснение не отражает реальный процесс – агент может делать одно, а говорить другое. Оценка fidelity проводится с помощью perturbation consistency, counterfactual checks и методов атрибуции вроде SHAP, адаптированных для LLM. Высокая fidelity критична для доверия к автономным системам в RAG-пайплайнах.

1. Термины и контекст

Agent explanation fidelity – свойство объяснения, сгенерированного агентом, быть правдивым по отношению к действительным причинам его выбора.

Explanation-decoupling – разрыв между объяснением и реальным действием: агент может сгенерировать правдоподобное, но ложное объяснение (например, модель утверждает, что выбрала инструмент из-за ключевых слов, хотя на самом деле решающим был другой фактор).

Perturbation consistency – проверка: если слегка изменить входные данные (добавить шум, убрать часть контекста), должно измениться и объяснение, причём согласованно с изменением действия.

Counterfactual fidelity – свойство: если бы агент принял альтернативное решение, объяснение должно было бы быть другим.

SHAP for LLM – применение Shapley-значений к токенам или фрагментам входа для оценки их вклада в решение агента.

В контексте agentic RAG объяснения особенно важны: агент может выбирать, какой источник прочитать, какой инструмент вызвать (поиск, калькулятор, база знаний) – пользователь должен понимать, почему сделан именно такой выбор.

2. Зачем нужна оценка fidelity?

Доверие пользователя: если агент объясняет свои действия неправильно, пользователь не сможет вовремя заметить ошибку.
Отладка: при разработке multi-agent систем низкая fidelity маскирует баги в цепочках рассуждений.
Безопасность (AI Safety): агент, который "врёт" о своих намерениях, может быть опасен (пример: объяснение «Я ищу информацию», а на самом деле агент запускает внешний код).
Регуляторные требования: в финансах, медицине, юриспруденции объяснения должны быть правдивыми и проверяемыми.

3. Проблема explanation-decoupling: откуда она берётся?

Причины:

Обучение без контроля объяснений – LLM часто fine-tune только на конечные действия, объяснения генерируются post-hoc и не обязаны быть истинными.
Hallucination in reasoning – модель может «выдумать» причину, похожую на те, что встречались в обучающих данных.
Неполный контекст – агент принимает решение на основе скрытых состояний, которые не видны в явном объяснении.

Пример:

Запрос: «Какая столица Франции, если Париж находится во Франции?»
Действие: агент отвечает «Париж».
Объяснение: «Я нашёл в документе, что столица Франции – Париж».
Реальность: агент просто запомнил факт, а retrieved document вообще не был нужен. Если удалить документ из контекста, ответ не изменится – объяснение неверно.

4. Метрика 1: Perturbation consistency

Идея: вносим небольшое изменение во вход, которое должно изменить и действие, и объяснение. Затем проверяем, что оба изменились согласованно.

Алгоритм:

Зафиксировать исходный вход x и получить действие a=agent(x) и объяснение e=explain(x).
Создать возмущённый вход x' (например, заменить один документ, изменить запрос, удалить ключевой токен).
Получить a'=agent(x') и e'=explain(x').
Если a' != a, то объяснение e' должно быть консистентно с новым действием. Обычно проверяют, что e' содержит указание на ту часть входа, которая была изменена.
Если a' == a, то объяснение может остаться прежним (или измениться незначительно).

Код Python (упрощённый пример):

import random
from your_agent import agent, explain  # гипотетический API

def perturbation_consistency_score(agent, explain, x, n_perturbations=10):
    consistent = 0
    for _ in range(n_perturbations):
        x_pert = perturb(x)  # функция возмущения
        a_orig = agent(x)
        a_pert = agent(x_pert)
        e_orig = explain(x)
        e_pert = explain(x_pert)
        if a_orig != a_pert:
            # ожидаем, что объяснение укажет на изменённую часть
            if "changed" in e_pert and "original" not in e_pert:
                consistent += 1
        else:
            if e_orig == e_pert:
                consistent += 1
    return consistent / n_perturbations

Ограничение: возмущения должны быть осмысленными (не ломать семантику).

5. Метрика 2: Counterfactual fidelity

Проверяем: если бы агент принял другое действие (в альтернативном сценарии), объяснение было бы другим?

Подход:

Собрать набор пар (вход, действие), где для одного входа возможно несколько действий.
Для каждого (x, a) спросить агента: «What would you explain if you had chosen alternative action a_alt?» (или сгенерировать контрфактическое объяснение специальным промптом).
Проверить, насколько объяснение для альтернативного действия отличается от объяснения для реального. Если различия минимальны → низкая fidelity (объяснения не различают действия).

Пример:

Действие A: вызвать search tool. Объяснение: «Нужна актуальная информация».
Действие B: вызвать calculator tool. Контрфактическое объяснение: «Нужно вычислить значение». Если при действии A контрфактическое объяснение тоже говорит про вычисления → проблема.

6. Метрика 3: SHAP for LLM (атрибуция токенов)

SHAP (SHapley Additive exPlanations) – метод кооперативной теории игр, оценивающий вклад каждого признака в предсказание. Для LLM признаки – это токены или группы токенов.

Применение к fidelity:

Для входа x и действия a посчитать SHAP-значения для всех токенов.
Сравнить важность токенов по SHAP с объяснением агента.
Если агент утверждает, что решение принято на основе токена T, но SHAP показывает, что вклад T нулевой → несоответствие.

Библиотеки: shap, transformers-interpret, LIME (менее точен).

Проблемы:

Вычислительно дорого для длинных контекстов.
SHAP даёт глобальную атрибуцию, а explanation может быть каузальным – не всегда совпадают.

7. Сравнение метрик

Метрика	Что измеряет	Плюсы	Минусы
Perturbation consistency	Чувствительность объяснения к изменениям входа	Простота, автоматизация	Требует специальных тест-кейсов
Counterfactual fidelity	Различие объяснений для альтернативных действий	Проверяет причинность	Субъективно, сложно генерировать контрфакты
SHAP атрибуция	Совпадение важности токенов с объяснением	Количественная оценка	Дорого, может не совпадать с когнитивным объяснением

8. Как повышать fidelity на практике

Reinforcement Learning with Explanation Reward: добавлять в reward функцию штраф за несоответствие объяснения и действия (например, на основе perturbation consistency).
Chain-of-Thought fine-tuning: учить агента сначала генерировать цепочку рассуждений, которая действительно используется для принятия решения (а не пост-хок).
Self‑consistency prompting: запрашивать несколько объяснений для одного входа и проверять их согласованность.
Интеграция внешних детекторов: использовать отдельную модель для проверки правдоподобия объяснения (например, через entailment между объяснением и retrieved документами).

9. Пет-проект для закрепления

Задача: Разработать простого агента для RAG (один вызов инструмента поиска) и построить пайплайн оценки fidelity.

Инструменты: Python, LangChain (или ручная реализация), библиотека shap, OpenAI API (или локальная LLM, например, Vicuna).

Шаги:

Создать агента, который по запросу выбирает: искать в векторной БД или ответить из памяти. Агент должен генерировать объяснение в формате: «Я выбрал поиск, потому что запрос содержит новое имя».
Написать функцию perturb_input(x), которая заменяет имя в запросе на другое.
Для 10 запросов посчитать perturbation consistency (как в п.4). Замерить, насколько часто объяснение меняется согласованно с действием.
С помощью shap.Explainer для LLM получить SHAP-значения для токенов запроса. Сравнить топ-3 важных токена по SHAP с теми, что указаны в объяснении (например, через F1-score совпадения).
Собрать отчёт: метрики fidelity + примеры расхождений.

Ожидаемый результат: Вы получите численные значения perturbation consistency (например, 0.65) и SHAP-совпадения (0.4), а также конкретные кейсы explanation-decoupling. Это можно представить как дашборд для отладки агента.

10. Связь с другими вопросами

Вопрос	Тема
585	Что такое agentic RAG в целом
586	Как проектировать multi-agent системы
587	Что такое tool use в RAG и как его контролировать
589	Какие метрики для оценки agentic RAG существуют
590	Что такое self-reflection у агентов
591	Как обеспечить safety в agentic RAG

11. Навигация

Предыдущий: 587
Следующий: 589
Индекс: 00. Индекс разборов