Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?

Краткий тезис

Оценка галлюцинаций в мультимодальных моделях (VLM) критически важна, так как они могут генерировать факты, не соответствующие изображению. Два популярных бенчмарка — POPE (Probabilistic Object-based Prompt Evaluation) и MMHal-Bench (MultiModal Hallucination Benchmark). POPE измеряет точность ответов на вопросы о присутствии объектов, используя метрики классификации (accuracy, precision, recall, F1). MMHal-Bench оценивает качество ответов по шкале 0–10 с помощью LLM-as-Judge, фокусируясь на различных типах галлюцинаций (объектные, атрибутивные, реляционные). Оба подхода дополняют друг друга: POPE даёт объективную количественную оценку, MMHal-Bench — более тонкую качественную.


1. Термин: Галлюцинации в мультимодальных моделях

Галлюцинации (hallucinations) в VLM — это генерация информации, которая не соответствует визуальному входу. Например, модель утверждает, что на изображении есть «зелёное яблоко», хотя яблоко красное, или описывает несуществующий объект.

Почему это важно

  • В приложениях (медицина, автономное вождение, модерация контента) галлюцинации могут привести к серьёзным ошибкам.
  • Оценка галлюцинаций — ключевой этап при выборе или дообучении VLM.
  • Без стандартизированных бенчмарков сложно сравнивать модели.

Типы галлюцинаций (по MMHal-Bench):

  • Объектные (object): модель добавляет несуществующий объект.
  • Атрибутивные (attribute): неверно описывает цвет, размер, текстуру.
  • Реляционные (relation): неправильно указывает пространственные отношения (слева, сверху).
  • Счётные (count): ошибается в количестве объектов.

2. POPE (Probabilistic Object-based Prompt Evaluation)

POPE — это метод оценки галлюцинаций, основанный на бинарных вопросах о присутствии объектов на изображении. Разработан для VLM (например, LLaVA, InstructBLIP).

2.1 Как работает POPE

  1. Выбор объектов: для каждого изображения из датасета (например, MSCOCO) берутся объекты, присутствующие на нём (ground-truth), и несколько отсутствующих (negative samples).
  2. Формирование вопросов: модель задаётся вопрос «Is there a [object] in the image?» (или аналогичный).
  3. Сбор ответов: VLM отвечает «Yes» или «No».
  4. Вычисление метрик: сравниваем ответы с ground-truth.

Пример:

  • Изображение: кошка на диване.
  • Positive вопрос: «Is there a cat?» → ожидаемый ответ «Yes».
  • Negative вопрос: «Is there a dog?» → ожидаемый ответ «No».

2.2 Метрики POPE

POPE использует стандартные метрики бинарной классификации:

МетрикаФормулаИнтерпретация
Accuracy(TP+TN)/(TP+TN+FP+FN)Доля правильных ответов
PrecisionTP/(TP+FP)Доля «Yes» среди предсказанных «Yes»
RecallTP/(TP+FN)Доля найденных реальных объектов
F1-score2*Precision*Recall/(Precision+Recall)Гармоническое среднее

Важно: высокая Accuracy может быть обманчивой, если модель склонна отвечать «Yes» на всё (high recall, low precision). Поэтому POPE рекомендует смотреть на F1 и Precision.

2.3 Варианты POPE

  • Random POPE: negative объекты выбираются случайно из всего словаря.
  • Popular POPE: negative объекты — самые частые в датасете (например, «person», «car»).
  • Adversarial POPE: negative объекты — семантически близкие к присутствующим (например, «cat» vs «dog»). Adversarial вариант — самый сложный и показательный.

2.4 Преимущества и недостатки POPE

+
Простота и воспроизводимостьОценивает только объектные галлюцинации
Объективные метрики (F1)Не учитывает атрибуты и отношения
Быстрое выполнение (не нужен LLM-судья)Зависит от качества negative samples

3. MMHal-Bench (MultiModal Hallucination Benchmark)

MMHal-Bench — более комплексный бенчмарк, оценивающий галлюцинации VLM по 8 категориям. Использует LLM-as-Judge для оценки качества ответов.

3.1 Структура датасета

  • Изображения: 96 изображений из различных доменов (природа, город, еда, люди).
  • Вопросы: 8 типов, по 12 вопросов на каждый тип (всего 96 вопросов).
  • Типы галлюцинаций:
    1. Object existence (объект существует)
    2. Object attribute (атрибут объекта)
    3. Object count (количество)
    4. Spatial relation (пространственные отношения)
    5. Action (действие)
    6. Color (цвет)
    7. Material (материал)
    8. Shape (форма)

3.2 Методология LLM-as-Judge

  1. Генерация ответа: VLM отвечает на вопрос.
  2. Оценка: другой LLM (например, GPT-4) оценивает ответ по шкале 0–10, где:
    • 0 — полная галлюцинация (ответ не соответствует изображению).
    • 5 — частично верно, но есть неточности.
    • 10 — полностью верно и информативно.
  3. Критерии оценки: судья учитывает фактологическую точность, релевантность и полноту.

Пример:

  • Вопрос: «Сколько людей на изображении?»
  • Ответ VLM: «Три человека».
  • На самом деле: два человека.
  • Оценка: 3–4 балла (ошибка в счёте).

3.3 Метрики MMHal-Bench

  • Средний балл (mean score) по всем вопросам — общая мера галлюцинаций.
  • Баллы по типам — позволяет выявить слабые места модели (например, плохо с цветами).
  • Процент ответов с оценкой < 5 — доля «галлюцинирующих» ответов.

3.4 Преимущества и недостатки MMHal-Bench

+
Охватывает разные типы галлюцинацийЗависит от качества LLM-судьи (может быть дорого и нестабильно)
Даёт качественную оценку (0–10)Требует ручной валидации судьи
Позволяет сравнивать модели по категориямМеньший размер датасета (96 вопросов)

4. Сравнение POPE и MMHal-Bench

КритерийPOPEMMHal-Bench
Тип оценкиОбъективная (бинарная классификация)Субъективная (LLM-as-Judge)
МетрикиAccuracy, Precision, Recall, F1Средний балл 0–10
Охват галлюцинацийТолько объектные8 типов (объекты, атрибуты, отношения и др.)
Сложность реализацииНизкая (нужен только датасет с объектами)Высокая (нужен LLM-судья, промпты)
СтоимостьДешёво (без вызова LLM)Дорого (вызовы GPT-4)
ВоспроизводимостьВысокая (фиксированные метрики)Средняя (зависит от версии судьи)
Типичное использованиеБыстрый скрининг при обученииФинальная оценка перед релизом

Вывод: POPE подходит для частого тестирования во время дообучения, MMHal-Bench — для глубокого анализа перед публикацией модели.


5. Другие методы оценки галлюцинаций VLM

  • CHAIR (Caption Hallucination Assessment with Image Relevance): оценивает галлюцинации в описаниях изображений (image captioning). Считает долю объектов, упомянутых в описании, но отсутствующих на изображении.
  • LLaVA-Bench (In-the-Wild): набор вопросов с открытыми ответами, оценивается человеком или LLM-судьёй.
  • Visual Question Answering (VQA) accuracy: стандартная метрика для VQA, но не выделяет галлюцинации отдельно.
  • Faithfulness metrics (например, в RAG): проверяют, соответствует ли ответ предоставленному контексту (изображению).

6. Практические рекомендации по интерпретации

  • Низкий F1 в POPE (особенно на Adversarial) → модель склонна к объектным галлюцинациям.
  • Низкий средний балл в MMHal-Bench (< 5) → модель часто галлюцинирует в разных аспектах.
  • Разрыв между баллами по типам → нужно дообучение на конкретных категориях (например, улучшить распознавание цвета).
  • Сравнение моделей: используйте оба бенчмарка для полной картины.
  • Ограничения: POPE не ловит атрибутивные галлюцинации, MMHal-Bench может быть смещён из-за судьи.

7. Пет-проект для закрепления

Задача: Реализовать оценку галлюцинаций для открытой VLM (например, LLaVA-1.5) с помощью POPE и MMHal-Bench.

Инструменты:

Шаги:

  1. POPE:
    • Загрузить MSCOCO и разметить объекты (ground-truth).
    • Сгенерировать positive/negative вопросы (использовать случайный и adversarial варианты).
    • Получить ответы VLM (бинарные).
    • Вычислить Accuracy, Precision, Recall, F1.
  2. MMHal-Bench:
    • Скачать датасет (изображения + вопросы).
    • Сгенерировать ответы VLM.
    • Написать промпт для LLM-судьи (например, «Оцени ответ по шкале 0–10, учитывая факты на изображении»).
    • Получить оценки и посчитать средний балл.
  3. Анализ:
    • Сравнить результаты с бенчмарками (например, LLaVA-1.5 reported scores).
    • Визуализировать распределение баллов по типам галлюцинаций.

Ожидаемый результат:

  • Таблица с метриками POPE (F1 ~0.8–0.9 для хорошей модели).
  • Средний балл MMHal-Bench (~7–8 для LLaVA-1.5).
  • Выводы о сильных и слабых сторонах модели.

8. Связь с другими вопросами

ВопросТема
5Как оценивать качество retrieval в RAG (метрики faithfulness)
7Как уменьшить latency RAG-системы (оценка влияния на качество)
10Что такое Self-RAG (оценка галлюцинаций в генерации)
15Как оценивать качество ответов LLM (LLM-as-Judge)
20Какие метрики для оценки RAG-систем (faithfulness, answer relevance)
30Как детектить галлюцинации в RAG (методы и инструменты)

9. Навигация


Навигация