Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?

Q: 1. Введение: зачем нужна мультимодальная эвалюация

- Нет единого «правильного» ответа (например, описание изображения может быть разным). - Требуется учитывать визуальную [[Вики/accuracy\|точность]] ([[Вики/model\|модель]] должна видеть объекты, их атрибуты, отношения). - [[Вики/human-in-the-loop\|Человеческая оценка]] дорога и субъективна, автоматические метрики не всегда коррелируют с восприятием.

Q: 2. MM-Vet: Human Evaluation с категориями задач

| Категория | Пример задачи | |-----------|---------------| | Recognize | «Какой объект изображен?» | | Describe | «Опиши сцену» | | Count | «Сколько людей на фото?» | | Relations | «Что находится слева от стула?» | | Reasoning | «Почему человек улыбается?» | | ... (всего 16) | ... |

Q: 4. MMBench: multiple-choice для автоматической оценки

Метрика [[Вики/accuracy\|accuracy]] ([[Вики/stake\|доля]] правильных ответов). [[Вики/Evaluation\|Оценка]] полностью автоматическая — [[Вики/model\|модель]] выбирает вариант, сравнивается с эталоном. Особенности - Вопросы покрывают различные навыки: распознавание, счёт, пространственные отношения, логику.

Q: 5. Другие популярные бенчмарки

| Бенчмарк | Тип задач | Метрика | Особенность | |----------|-----------|---------|-------------| | VQA v2 | Visual Question Answering | Accuracy (бинарная или open-ended) | 265k вопросов, баланс по типам | | [[Вики/COCO Captions\|COCO Captions]] | Генерация подписи | CIDEr, BLEU, ROUGE, SPICE | 5 эталонных подписей на изображение |

Q: 6. Метрики для мультимодальных задач

Q: 7. Human evaluation vs Automatic evaluation

| Критерий | Human Evaluation | Automatic Evaluation | |----------|------------------|----------------------| | Скорость | Медленно (часы/дни) | Быстро (секунды) | | Стоимость | Высокая (оплата аннотаторов) | Низкая (вычислительные ресурсы) | | Объективность | Субъективна | Объективна, но ограничена |

Краткий тезис

Мультимодальная эвалюация для Vision-Language (VL) моделей — это комплексная оценка способности модели понимать и генерировать ответы на основе изображений и текста. Основные подходы включают human evaluation (MM-Vet) с трехуровневой шкалой (correctness, helpfulness, conciseness) и автоматические метрики (MEGA, MMBench), которые сравнивают ответ модели с ground truth, используя scene graphs или множественный выбор. Ключевая сложность — отсутствие единой метрики, поэтому применяют комбинацию методов для разных типов задач.

1. Введение: зачем нужна мультимодальная эвалюация

VL-модели (Vision-Language models) — это модели, которые обрабатывают одновременно изображения и текст (например, GPT-4V, LLaVA, BLIP-2). Они решают задачи: VQA (Visual Question Answering), captioning (генерация подписи к изображению), visual reasoning, grounding (локализация объектов по тексту).

Оценка таких моделей сложнее, чем для чистого текста:

Нет единого «правильного» ответа (например, описание изображения может быть разным).
Требуется учитывать визуальную точность (модель должна видеть объекты, их атрибуты, отношения).
Человеческая оценка дорога и субъективна, автоматические метрики не всегда коррелируют с восприятием.

Поэтому разработаны специализированные бенчмарки и метрики: MM-Vet, MEGA, MMBench, а также классические VQA, COCO Captions, Flickr30k.

2. MM-Vet: Human Evaluation с категориями задач

MM-Vet (Multimodal Evaluation Benchmark) — это бенчмарк для оценки VL-моделей с участием человека. Он включает 16 категорий задач, которые покрывают различные аспекты визуально-языкового понимания:

Категория	Пример задачи
Recognize	«Какой объект изображен?»
Describe	«Опиши сцену»
Count	«Сколько людей на фото?»
Relations	«Что находится слева от стула?»
Reasoning	«Почему человек улыбается?»
... (всего 16)	...

Процесс оценки

Модели дают изображение и вопрос/инструкцию.
Ответ модели оценивается человеком-аннотатором по трём уровням:
- Correctness (правильность) — насколько ответ соответствует фактам на изображении.
- Helpfulness (полезность) — насколько ответ полный и релевантен запросу.
- Conciseness (краткость) — насколько ответ лаконичен без потери смысла.
Каждый уровень оценивается по шкале (например, 1-5 или бинарно), затем вычисляется среднее.

Преимущества высокая точность, учёт семантики и контекста. Недостатки дороговизна, медлительность, субъективность аннотаторов.

3. MEGA: автоматическая оценка через grounded answers

MEGA (Multimodal Evaluation with Grounded Answers) — это автоматический метод оценки, который сравнивает ответ модели с ground truth (эталонным ответом), используя Graph|scene graph — структурированное представление изображения в виде объектов, атрибутов и отношений.

Как работает MEGA

Для каждого тестового примера создаётся Graph|scene graph изображения (вручную или автоматически детектором).
Ответ модели и ground truth парсятся в триплеты: (объект, атрибут, значение), (объект1, отношение, объект2).
Вычисляется точность (precision) и полнота (recall) по этим триплетам, затем F1-мера.

Пример:

Изображение: собака сидит на траве, солнце светит.
Ground truth: [(dog, color, brown), (dog, action, sitting), (grass, color, green), (sun, state, shining)]
Ответ модели: «Коричневая собака сидит на зелёной траве».
Парсинг ответа: [(dog, color, brown), (dog, action, sitting), (grass, color, green)]
Precision = 3/3 = 1.0, Recall = 3/4 = 0.75, F1 = 0.857.

Преимущества автоматизация, объективность, детализация. Недостатки зависит от качества парсинга и scene graph; не учитывает стиль, креативность.

4. MMBench: multiple-choice для автоматической оценки

MMBench — это бенчмарк, состоящий из ~3000 вопросов с множественным выбором (multiple-choice). Каждый вопрос включает изображение, вопрос и 4 варианта ответа, из которых только один правильный.

Метрика accuracy (доля правильных ответов). Оценка полностью автоматическая — модель выбирает вариант, сравнивается с эталоном.

Особенности

Вопросы покрывают различные навыки: распознавание, счёт, пространственные отношения, логику.
Исключает субъективность human evaluation.
Прост в воспроизведении.

Недостатки multiple-choice не отражает реальное использование (модель может угадать), не оценивает генерацию свободного текста.

5. Другие популярные бенчмарки

Бенчмарк	Тип задач	Метрика	Особенность
VQA v2	Visual Question Answering	Accuracy (бинарная или open-ended)	265k вопросов, баланс по типам
COCO Captions	Генерация подписи	CIDEr, BLEU, ROUGE, SPICE	5 эталонных подписей на изображение
Flickr30k	Генерация подписи	BLEU, METEOR	31k изображений, 5 подписей каждое
VisDial	Диалог на основе изображения	NDCG, MRR	Многотуровая беседа

6. Метрики для мультимодальных задач

Помимо accuracy и F1, используются метрики из NLP и computer vision:

BLEU — точность n-грамм между ответом и эталоном (для captioning).
ROUGE — полнота n-грамм (для summarization).
CIDEr — взвешенная TF-IDF n-грамм, лучше коррелирует с human judgement для captioning.
SPICE — метрика на основе scene graph, оценивает семантическое сходство объектов, атрибутов, отношений.
F1 для detection — если модель должна локализовать объекты (bounding boxes).

Пример кода для SPICE (упрощённо):

# Псевдокод: SPICE сравнивает scene graphs
from spice import SPICE
scorer = SPICE()
score = scorer.score(reference_graph, hypothesis_graph)

7. Human evaluation vs Automatic evaluation

Критерий	Human Evaluation	Automatic Evaluation
Скорость	Медленно (часы/дни)	Быстро (секунды)
Стоимость	Высокая (оплата аннотаторов)	Низкая (вычислительные ресурсы)
Объективность	Субъективна	Объективна, но ограничена
Детализация	Учитывает семантику, стиль	Только формальное совпадение
Масштабируемость	Плохая (тысячи примеров)	Хорошая (миллионы)

Рекомендация использовать автоматические метрики для быстрой итерации (MEGA, MMBench) и human evaluation (MM-Vet) для финальной валидации.

8. Роль scene graph в MEGA

Scene graph — это граф, где узлы — объекты (с атрибутами), а рёбра — отношения между ними. В MEGA scene graph строится для каждого тестового изображения (вручную или детектором, например, Scene Graph Generation моделью).

Процесс сравнения

Ответ модели преобразуется в триплеты через dependency parsing или NER.
Ground truth триплеты извлекаются из эталонного scene graph.
Вычисляется F1 по триплетам.

Пример триплетов

(cat, color, black)
(cat, location, on_mat)
(mat, color, red)

Преимущество позволяет оценить, видит ли модель конкретные детали, а не просто общее описание.

9. Связь с Agentic RAG

В контексте Agentic RAG мультимодальная эвалюация применяется для оценки агентов, которые работают с изображениями:

Агент получает запрос пользователя (текст + изображение).
Использует retrieval для поиска релевантных документов (текст, изображения).
Генерирует ответ, который должен быть точным визуально и текстуально.

Пример: агент для медицинской диагностики по снимкам. Оценка через MEGA позволяет проверить, правильно ли агент идентифицировал аномалии (объекты, атрибуты). MM-Vet оценивает полезность ответа для врача.

Метрики для Agentic RAG:

Faithfulness (верность контексту) — насколько ответ соответствует найденным документам.
Answer relevance — релевантность ответа запросу.
Visual grounding accuracy — точность привязки к объектам на изображении.

10. Вызовы и ограничения

Стоимость human evaluation — MM-Vet требует много аннотаторов, что дорого для частых итераций.
Неполнота автоматических метрик — MEGA не улавливает креативность, юмор, стиль.
Доменный разрыв — бенчмарки (MMBench) могут не отражать реальные сценарии использования.
Зависимость от парсинга — MEGA чувствительна к качеству извлечения триплетов из ответа.
Отсутствие единого стандарта — разные бенчмарки оценивают разные навыки, сложно сравнивать модели.

Пет-проект для закрепления

Задача Реализовать автоматическую оценку VL-модели (например, LLaVA) на датасете COCO Captions с использованием метрики SPICE и сравнить с human evaluation.

Инструменты Python, Hugging Face Transformers, библиотека spice (или собственная реализация), COCO API.

Шаги:

Загрузить предобученную VL-модель (LLaVA-1.5).
Выбрать 100 изображений из COCO val, для каждого есть 5 эталонных подписей.
Сгенерировать подписи моделью (prompt: «Describe this image in one sentence»).
Вычислить SPICE для каждой пары (гипотеза, эталон), усреднить.
Провести human evaluation: попросить 3 человек оценить 20 случайных ответов по шкале 1-5 (correctness, helpfulness, conciseness).
Сравнить корреляцию SPICE с human scores (коэффициент Спирмена).

Ожидаемый результат Вы увидите, что SPICE хорошо коррелирует с correctness, но слабо — с conciseness. Это демонстрирует ограничения автоматических метрик.

Связь с другими вопросами

Вопрос	Тема
5	Оценка качества retrieval в RAG
12	Метрики для RAG (RAGAS, faithfulness)
45	Fine-tuning VL-моделей
120	Архитектура Agentic RAG
230	Сравнение human vs automatic evaluation в NLP
340	Scene Graph Generation

Краткий тезис

1. Введение: зачем нужна мультимодальная эвалюация

Оценка таких моделей сложнее, чем для чистого текста:

Нет единого «правильного» ответа (например, описание изображения может быть разным).
Требуется учитывать визуальную точность (модель должна видеть объекты, их атрибуты, отношения).
Человеческая оценка дорога и субъективна, автоматические метрики не всегда коррелируют с восприятием.

2. MM-Vet: Human Evaluation с категориями задач

Категория	Пример задачи
Recognize	«Какой объект изображен?»
Describe	«Опиши сцену»
Count	«Сколько людей на фото?»
Relations	«Что находится слева от стула?»
Reasoning	«Почему человек улыбается?»
... (всего 16)	...

Процесс оценки

Модели дают изображение и вопрос/инструкцию.
Ответ модели оценивается человеком-аннотатором по трём уровням:
- Correctness (правильность) — насколько ответ соответствует фактам на изображении.
- Helpfulness (полезность) — насколько ответ полный и релевантен запросу.
- Conciseness (краткость) — насколько ответ лаконичен без потери смысла.
Каждый уровень оценивается по шкале (например, 1-5 или бинарно), затем вычисляется среднее.

3. MEGA: автоматическая оценка через grounded answers

Как работает MEGA

Для каждого тестового примера создаётся Graph|scene graph изображения (вручную или автоматически детектором).
Ответ модели и ground truth парсятся в триплеты: (объект, атрибут, значение), (объект1, отношение, объект2).
Вычисляется точность (precision) и полнота (recall) по этим триплетам, затем F1-мера.

Пример:

Изображение: собака сидит на траве, солнце светит.
Ground truth: [(dog, color, brown), (dog, action, sitting), (grass, color, green), (sun, state, shining)]
Ответ модели: «Коричневая собака сидит на зелёной траве».
Парсинг ответа: [(dog, color, brown), (dog, action, sitting), (grass, color, green)]
Precision = 3/3 = 1.0, Recall = 3/4 = 0.75, F1 = 0.857.

4. MMBench: multiple-choice для автоматической оценки

Особенности

Вопросы покрывают различные навыки: распознавание, счёт, пространственные отношения, логику.
Исключает субъективность human evaluation.
Прост в воспроизведении.

5. Другие популярные бенчмарки

Бенчмарк	Тип задач	Метрика	Особенность
VQA v2	Visual Question Answering	Accuracy (бинарная или open-ended)	265k вопросов, баланс по типам
COCO Captions	Генерация подписи	CIDEr, BLEU, ROUGE, SPICE	5 эталонных подписей на изображение
Flickr30k	Генерация подписи	BLEU, METEOR	31k изображений, 5 подписей каждое
VisDial	Диалог на основе изображения	NDCG, MRR	Многотуровая беседа

6. Метрики для мультимодальных задач

Помимо accuracy и F1, используются метрики из NLP и computer vision:

BLEU — точность n-грамм между ответом и эталоном (для captioning).
ROUGE — полнота n-грамм (для summarization).
CIDEr — взвешенная TF-IDF n-грамм, лучше коррелирует с human judgement для captioning.
SPICE — метрика на основе scene graph, оценивает семантическое сходство объектов, атрибутов, отношений.
F1 для detection — если модель должна локализовать объекты (bounding boxes).

Пример кода для SPICE (упрощённо):

# Псевдокод: SPICE сравнивает scene graphs
from spice import SPICE
scorer = SPICE()
score = scorer.score(reference_graph, hypothesis_graph)

7. Human evaluation vs Automatic evaluation

Критерий	Human Evaluation	Automatic Evaluation
Скорость	Медленно (часы/дни)	Быстро (секунды)
Стоимость	Высокая (оплата аннотаторов)	Низкая (вычислительные ресурсы)
Объективность	Субъективна	Объективна, но ограничена
Детализация	Учитывает семантику, стиль	Только формальное совпадение
Масштабируемость	Плохая (тысячи примеров)	Хорошая (миллионы)

8. Роль scene graph в MEGA

Процесс сравнения

Ответ модели преобразуется в триплеты через dependency parsing или NER.
Ground truth триплеты извлекаются из эталонного scene graph.
Вычисляется F1 по триплетам.

Пример триплетов

(cat, color, black)
(cat, location, on_mat)
(mat, color, red)

Преимущество позволяет оценить, видит ли модель конкретные детали, а не просто общее описание.

9. Связь с Agentic RAG

Агент получает запрос пользователя (текст + изображение).
Использует retrieval для поиска релевантных документов (текст, изображения).
Генерирует ответ, который должен быть точным визуально и текстуально.

Метрики для Agentic RAG:

Faithfulness (верность контексту) — насколько ответ соответствует найденным документам.
Answer relevance — релевантность ответа запросу.
Visual grounding accuracy — точность привязки к объектам на изображении.

10. Вызовы и ограничения

Стоимость human evaluation — MM-Vet требует много аннотаторов, что дорого для частых итераций.
Неполнота автоматических метрик — MEGA не улавливает креативность, юмор, стиль.
Доменный разрыв — бенчмарки (MMBench) могут не отражать реальные сценарии использования.
Зависимость от парсинга — MEGA чувствительна к качеству извлечения триплетов из ответа.
Отсутствие единого стандарта — разные бенчмарки оценивают разные навыки, сложно сравнивать модели.

Пет-проект для закрепления

Инструменты Python, Hugging Face Transformers, библиотека spice (или собственная реализация), COCO API.

Шаги:

Загрузить предобученную VL-модель (LLaVA-1.5).
Выбрать 100 изображений из COCO val, для каждого есть 5 эталонных подписей.
Сгенерировать подписи моделью (prompt: «Describe this image in one sentence»).
Вычислить SPICE для каждой пары (гипотеза, эталон), усреднить.
Провести human evaluation: попросить 3 человек оценить 20 случайных ответов по шкале 1-5 (correctness, helpfulness, conciseness).
Сравнить корреляцию SPICE с human scores (коэффициент Спирмена).

Связь с другими вопросами

Вопрос	Тема
5	Оценка качества retrieval в RAG
12	Метрики для RAG (RAGAS, faithfulness)
45	Fine-tuning VL-моделей
120	Архитектура Agentic RAG
230	Сравнение human vs automatic evaluation в NLP
340	Scene Graph Generation

Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?

Краткий тезис

1. Введение: зачем нужна мультимодальная эвалюация

2. MM-Vet: Human Evaluation с категориями задач

3. MEGA: автоматическая оценка через grounded answers

4. MMBench: multiple-choice для автоматической оценки

5. Другие популярные бенчмарки

6. Метрики для мультимодальных задач

7. Human evaluation vs Automatic evaluation

8. Роль scene graph в MEGA

9. Связь с Agentic RAG

10. Вызовы и ограничения

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?

Краткий тезис

1. Введение: зачем нужна мультимодальная эвалюация

2. MM-Vet: Human Evaluation с категориями задач

3. MEGA: автоматическая оценка через grounded answers

4. MMBench: multiple-choice для автоматической оценки

5. Другие популярные бенчмарки

6. Метрики для мультимодальных задач

7. Human evaluation vs Automatic evaluation

8. Роль scene graph в MEGA

9. Связь с Agentic RAG

10. Вызовы и ограничения

Пет-проект для закрепления

Связь с другими вопросами

Навигация