English translation is not available yet. Showing Russian content.

Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?

Краткий тезис

Мультимодальная эвалюация для Vision-Language (VL) моделей — это комплексная оценка способности модели понимать и генерировать ответы на основе изображений и текста. Основные подходы включают human evaluation (MM-Vet) с трехуровневой шкалой (correctness, helpfulness, conciseness) и автоматические метрики (MEGA, MMBench), которые сравнивают ответ модели с ground truth, используя scene graphs или множественный выбор. Ключевая сложность — отсутствие единой метрики, поэтому применяют комбинацию методов для разных типов задач.


1. Введение: зачем нужна мультимодальная эвалюация

VL-модели (Vision-Language models) — это модели, которые обрабатывают одновременно изображения и текст (например, GPT-4V, LLaVA, BLIP-2). Они решают задачи: VQA (Visual Question Answering), captioning (генерация подписи к изображению), visual reasoning, grounding (локализация объектов по тексту).

Оценка таких моделей сложнее, чем для чистого текста:

  • Нет единого «правильного» ответа (например, описание изображения может быть разным).
  • Требуется учитывать визуальную точность (модель должна видеть объекты, их атрибуты, отношения).
  • Человеческая оценка дорога и субъективна, автоматические метрики не всегда коррелируют с восприятием.

Поэтому разработаны специализированные бенчмарки и метрики: MM-Vet, MEGA, MMBench, а также классические VQA, COCO Captions, Flickr30k.


2. MM-Vet: Human Evaluation с категориями задач

MM-Vet (Multimodal Evaluation Benchmark) — это бенчмарк для оценки VL-моделей с участием человека. Он включает 16 категорий задач, которые покрывают различные аспекты визуально-языкового понимания:

КатегорияПример задачи
Recognize«Какой объект изображен?»
Describe«Опиши сцену»
Count«Сколько людей на фото?»
Relations«Что находится слева от стула?»
Reasoning«Почему человек улыбается?»
... (всего 16)...

Процесс оценки

  1. Модели дают изображение и вопрос/инструкцию.
  2. Ответ модели оценивается человеком-аннотатором по трём уровням:
    • Correctness (правильность) — насколько ответ соответствует фактам на изображении.
    • Helpfulness (полезность) — насколько ответ полный и релевантен запросу.
    • Conciseness (краткость) — насколько ответ лаконичен без потери смысла.
  3. Каждый уровень оценивается по шкале (например, 1-5 или бинарно), затем вычисляется среднее.

Преимущества высокая точность, учёт семантики и контекста. Недостатки дороговизна, медлительность, субъективность аннотаторов.


3. MEGA: автоматическая оценка через grounded answers

MEGA (Multimodal Evaluation with Grounded Answers) — это автоматический метод оценки, который сравнивает ответ модели с ground truth (эталонным ответом), используя Graph|scene graph — структурированное представление изображения в виде объектов, атрибутов и отношений.

Как работает MEGA

  1. Для каждого тестового примера создаётся Graph|scene graph изображения (вручную или автоматически детектором).
  2. Ответ модели и ground truth парсятся в триплеты: (объект, атрибут, значение), (объект1, отношение, объект2).
  3. Вычисляется точность (precision) и полнота (recall) по этим триплетам, затем F1-мера.

Пример:

  • Изображение: собака сидит на траве, солнце светит.
  • Ground truth: [(dog, color, brown), (dog, action, sitting), (grass, color, green), (sun, state, shining)]
  • Ответ модели: «Коричневая собака сидит на зелёной траве».
  • Парсинг ответа: [(dog, color, brown), (dog, action, sitting), (grass, color, green)]
  • Precision = 3/3 = 1.0, Recall = 3/4 = 0.75, F1 = 0.857.

Преимущества автоматизация, объективность, детализация. Недостатки зависит от качества парсинга и scene graph; не учитывает стиль, креативность.


4. MMBench: multiple-choice для автоматической оценки

MMBench — это бенчмарк, состоящий из ~3000 вопросов с множественным выбором (multiple-choice). Каждый вопрос включает изображение, вопрос и 4 варианта ответа, из которых только один правильный.

Метрика accuracy (доля правильных ответов). Оценка полностью автоматическая — модель выбирает вариант, сравнивается с эталоном.

Особенности

  • Вопросы покрывают различные навыки: распознавание, счёт, пространственные отношения, логику.
  • Исключает субъективность human evaluation.
  • Прост в воспроизведении.

Недостатки multiple-choice не отражает реальное использование (модель может угадать), не оценивает генерацию свободного текста.


5. Другие популярные бенчмарки

БенчмаркТип задачМетрикаОсобенность
VQA v2Visual Question AnsweringAccuracy (бинарная или open-ended)265k вопросов, баланс по типам
COCO CaptionsГенерация подписиCIDEr, BLEU, ROUGE, SPICE5 эталонных подписей на изображение
Flickr30kГенерация подписиBLEU, METEOR31k изображений, 5 подписей каждое
VisDialДиалог на основе изображенияNDCG, MRRМноготуровая беседа

6. Метрики для мультимодальных задач

Помимо accuracy и F1, используются метрики из NLP и computer vision:

  • BLEU — точность n-грамм между ответом и эталоном (для captioning).
  • ROUGE — полнота n-грамм (для summarization).
  • CIDEr — взвешенная TF-IDF n-грамм, лучше коррелирует с human judgement для captioning.
  • SPICE — метрика на основе scene graph, оценивает семантическое сходство объектов, атрибутов, отношений.
  • F1 для detection — если модель должна локализовать объекты (bounding boxes).

Пример кода для SPICE (упрощённо):

# Псевдокод: SPICE сравнивает scene graphs
from spice import SPICE
scorer = SPICE()
score = scorer.score(reference_graph, hypothesis_graph)

7. Human evaluation vs Automatic evaluation

КритерийHuman EvaluationAutomatic Evaluation
СкоростьМедленно (часы/дни)Быстро (секунды)
СтоимостьВысокая (оплата аннотаторов)Низкая (вычислительные ресурсы)
ОбъективностьСубъективнаОбъективна, но ограничена
ДетализацияУчитывает семантику, стильТолько формальное совпадение
МасштабируемостьПлохая (тысячи примеров)Хорошая (миллионы)

Рекомендация использовать автоматические метрики для быстрой итерации (MEGA, MMBench) и human evaluation (MM-Vet) для финальной валидации.


8. Роль scene graph в MEGA

Scene graph — это граф, где узлы — объекты (с атрибутами), а рёбра — отношения между ними. В MEGA scene graph строится для каждого тестового изображения (вручную или детектором, например, Scene Graph Generation моделью).

Процесс сравнения

  1. Ответ модели преобразуется в триплеты через dependency parsing или NER.
  2. Ground truth триплеты извлекаются из эталонного scene graph.
  3. Вычисляется F1 по триплетам.

Пример триплетов

  • (cat, color, black)
  • (cat, location, on_mat)
  • (mat, color, red)

Преимущество позволяет оценить, видит ли модель конкретные детали, а не просто общее описание.


9. Связь с Agentic RAG

В контексте Agentic RAG мультимодальная эвалюация применяется для оценки агентов, которые работают с изображениями:

  • Агент получает запрос пользователя (текст + изображение).
  • Использует retrieval для поиска релевантных документов (текст, изображения).
  • Генерирует ответ, который должен быть точным визуально и текстуально.

Пример: агент для медицинской диагностики по снимкам. Оценка через MEGA позволяет проверить, правильно ли агент идентифицировал аномалии (объекты, атрибуты). MM-Vet оценивает полезность ответа для врача.

Метрики для Agentic RAG:

  • Faithfulness (верность контексту) — насколько ответ соответствует найденным документам.
  • Answer relevance — релевантность ответа запросу.
  • Visual grounding accuracy — точность привязки к объектам на изображении.

10. Вызовы и ограничения

  • Стоимость human evaluationMM-Vet требует много аннотаторов, что дорого для частых итераций.
  • Неполнота автоматических метрик — MEGA не улавливает креативность, юмор, стиль.
  • Доменный разрыв — бенчмарки (MMBench) могут не отражать реальные сценарии использования.
  • Зависимость от парсинга — MEGA чувствительна к качеству извлечения триплетов из ответа.
  • Отсутствие единого стандарта — разные бенчмарки оценивают разные навыки, сложно сравнивать модели.

Пет-проект для закрепления

Задача Реализовать автоматическую оценку VL-модели (например, LLaVA) на датасете COCO Captions с использованием метрики SPICE и сравнить с human evaluation.

Инструменты Python, Hugging Face Transformers, библиотека spice (или собственная реализация), COCO API.

Шаги:

  1. Загрузить предобученную VL-модель (LLaVA-1.5).
  2. Выбрать 100 изображений из COCO val, для каждого есть 5 эталонных подписей.
  3. Сгенерировать подписи моделью (prompt: «Describe this image in one sentence»).
  4. Вычислить SPICE для каждой пары (гипотеза, эталон), усреднить.
  5. Провести human evaluation: попросить 3 человек оценить 20 случайных ответов по шкале 1-5 (correctness, helpfulness, conciseness).
  6. Сравнить корреляцию SPICE с human scores (коэффициент Спирмена).

Ожидаемый результат Вы увидите, что SPICE хорошо коррелирует с correctness, но слабо — с conciseness. Это демонстрирует ограничения автоматических метрик.


Связь с другими вопросами

ВопросТема
5Оценка качества retrieval в RAG
12Метрики для RAG (RAGAS, faithfulness)
45Fine-tuning VL-моделей
120Архитектура Agentic RAG
230Сравнение human vs automatic evaluation в NLP
340Scene Graph Generation

Навигация