中文翻译暂不可用,显示俄语原文。
Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
Краткий тезис
Мультимодальная эвалюация для Vision-Language (VL) моделей — это комплексная оценка способности модели понимать и генерировать ответы на основе изображений и текста. Основные подходы включают human evaluation (MM-Vet) с трехуровневой шкалой (correctness, helpfulness, conciseness) и автоматические метрики (MEGA, MMBench), которые сравнивают ответ модели с ground truth, используя scene graphs или множественный выбор. Ключевая сложность — отсутствие единой метрики, поэтому применяют комбинацию методов для разных типов задач.
1. Введение: зачем нужна мультимодальная эвалюация
VL-модели (Vision-Language models) — это модели, которые обрабатывают одновременно изображения и текст (например, GPT-4V, LLaVA, BLIP-2). Они решают задачи: VQA (Visual Question Answering), captioning (генерация подписи к изображению), visual reasoning, grounding (локализация объектов по тексту).
Оценка таких моделей сложнее, чем для чистого текста:
- Нет единого «правильного» ответа (например, описание изображения может быть разным).
- Требуется учитывать визуальную точность (модель должна видеть объекты, их атрибуты, отношения).
- Человеческая оценка дорога и субъективна, автоматические метрики не всегда коррелируют с восприятием.
Поэтому разработаны специализированные бенчмарки и метрики: MM-Vet, MEGA, MMBench, а также классические VQA, COCO Captions, Flickr30k.
2. MM-Vet: Human Evaluation с категориями задач
MM-Vet (Multimodal Evaluation Benchmark) — это бенчмарк для оценки VL-моделей с участием человека. Он включает 16 категорий задач, которые покрывают различные аспекты визуально-языкового понимания:
| Категория | Пример задачи |
|---|---|
| Recognize | «Какой объект изображен?» |
| Describe | «Опиши сцену» |
| Count | «Сколько людей на фото?» |
| Relations | «Что находится слева от стула?» |
| Reasoning | «Почему человек улыбается?» |
| ... (всего 16) | ... |
Процесс оценки
- Модели дают изображение и вопрос/инструкцию.
- Ответ модели оценивается человеком-аннотатором по трём уровням:
- Correctness (правильность) — насколько ответ соответствует фактам на изображении.
- Helpfulness (полезность) — насколько ответ полный и релевантен запросу.
- Conciseness (краткость) — насколько ответ лаконичен без потери смысла.
- Каждый уровень оценивается по шкале (например, 1-5 или бинарно), затем вычисляется среднее.
Преимущества высокая точность, учёт семантики и контекста. Недостатки дороговизна, медлительность, субъективность аннотаторов.
3. MEGA: автоматическая оценка через grounded answers
MEGA (Multimodal Evaluation with Grounded Answers) — это автоматический метод оценки, который сравнивает ответ модели с ground truth (эталонным ответом), используя Graph|scene graph — структурированное представление изображения в виде объектов, атрибутов и отношений.
Как работает MEGA
- Для каждого тестового примера создаётся Graph|scene graph изображения (вручную или автоматически детектором).
- Ответ модели и ground truth парсятся в триплеты: (объект, атрибут, значение),
(объект1, отношение, объект2). - Вычисляется точность (precision) и полнота (recall) по этим триплетам, затем F1-мера.
Пример:
- Изображение: собака сидит на траве, солнце светит.
- Ground truth: [(dog, color, brown), (dog, action, sitting), (grass, color, green), (sun, state, shining)]
- Ответ модели: «Коричневая собака сидит на зелёной траве».
- Парсинг ответа: [(dog, color, brown), (dog, action, sitting), (grass, color, green)]
- Precision = 3/3 = 1.0, Recall = 3/4 = 0.75, F1 = 0.857.
Преимущества автоматизация, объективность, детализация. Недостатки зависит от качества парсинга и scene graph; не учитывает стиль, креативность.
4. MMBench: multiple-choice для автоматической оценки
MMBench — это бенчмарк, состоящий из ~3000 вопросов с множественным выбором (multiple-choice). Каждый вопрос включает изображение, вопрос и 4 варианта ответа, из которых только один правильный.
Метрика accuracy (доля правильных ответов). Оценка полностью автоматическая — модель выбирает вариант, сравнивается с эталоном.
Особенности
- Вопросы покрывают различные навыки: распознавание, счёт, пространственные отношения, логику.
- Исключает субъективность human evaluation.
- Прост в воспроизведении.
Недостатки multiple-choice не отражает реальное использование (модель может угадать), не оценивает генерацию свободного текста.
5. Другие популярные бенчмарки
| Бенчмарк | Тип задач | Метрика | Особенность |
|---|---|---|---|
| VQA v2 | Visual Question Answering | Accuracy (бинарная или open-ended) | 265k вопросов, баланс по типам |
| COCO Captions | Генерация подписи | CIDEr, BLEU, ROUGE, SPICE | 5 эталонных подписей на изображение |
| Flickr30k | Генерация подписи | BLEU, METEOR | 31k изображений, 5 подписей каждое |
| VisDial | Диалог на основе изображения | NDCG, MRR | Многотуровая беседа |
6. Метрики для мультимодальных задач
Помимо accuracy и F1, используются метрики из NLP и computer vision:
- BLEU — точность n-грамм между ответом и эталоном (для captioning).
- ROUGE — полнота n-грамм (для summarization).
- CIDEr — взвешенная TF-IDF n-грамм, лучше коррелирует с human judgement для captioning.
- SPICE — метрика на основе scene graph, оценивает семантическое сходство объектов, атрибутов, отношений.
- F1 для detection — если модель должна локализовать объекты (bounding boxes).
Пример кода для SPICE (упрощённо):
# Псевдокод: SPICE сравнивает scene graphs
from spice import SPICE
scorer = SPICE()
score = scorer.score(reference_graph, hypothesis_graph)
7. Human evaluation vs Automatic evaluation
| Критерий | Human Evaluation | Automatic Evaluation |
|---|---|---|
| Скорость | Медленно (часы/дни) | Быстро (секунды) |
| Стоимость | Высокая (оплата аннотаторов) | Низкая (вычислительные ресурсы) |
| Объективность | Субъективна | Объективна, но ограничена |
| Детализация | Учитывает семантику, стиль | Только формальное совпадение |
| Масштабируемость | Плохая (тысячи примеров) | Хорошая (миллионы) |
Рекомендация использовать автоматические метрики для быстрой итерации (MEGA, MMBench) и human evaluation (MM-Vet) для финальной валидации.
8. Роль scene graph в MEGA
Scene graph — это граф, где узлы — объекты (с атрибутами), а рёбра — отношения между ними. В MEGA scene graph строится для каждого тестового изображения (вручную или детектором, например, Scene Graph Generation моделью).
Процесс сравнения
- Ответ модели преобразуется в триплеты через dependency parsing или NER.
- Ground truth триплеты извлекаются из эталонного scene graph.
- Вычисляется F1 по триплетам.
Пример триплетов
- (cat, color, black)
(cat, location, on_mat)- (mat, color, red)
Преимущество позволяет оценить, видит ли модель конкретные детали, а не просто общее описание.
9. Связь с Agentic RAG
В контексте Agentic RAG мультимодальная эвалюация применяется для оценки агентов, которые работают с изображениями:
- Агент получает запрос пользователя (текст + изображение).
- Использует retrieval для поиска релевантных документов (текст, изображения).
- Генерирует ответ, который должен быть точным визуально и текстуально.
Пример: агент для медицинской диагностики по снимкам. Оценка через MEGA позволяет проверить, правильно ли агент идентифицировал аномалии (объекты, атрибуты). MM-Vet оценивает полезность ответа для врача.
Метрики для Agentic RAG:
- Faithfulness (верность контексту) — насколько ответ соответствует найденным документам.
- Answer relevance — релевантность ответа запросу.
- Visual grounding accuracy — точность привязки к объектам на изображении.
10. Вызовы и ограничения
- Стоимость human evaluation — MM-Vet требует много аннотаторов, что дорого для частых итераций.
- Неполнота автоматических метрик — MEGA не улавливает креативность, юмор, стиль.
- Доменный разрыв — бенчмарки (MMBench) могут не отражать реальные сценарии использования.
- Зависимость от парсинга — MEGA чувствительна к качеству извлечения триплетов из ответа.
- Отсутствие единого стандарта — разные бенчмарки оценивают разные навыки, сложно сравнивать модели.
Пет-проект для закрепления
Задача Реализовать автоматическую оценку VL-модели (например, LLaVA) на датасете COCO Captions с использованием метрики SPICE и сравнить с human evaluation.
Инструменты Python, Hugging Face Transformers, библиотека spice (или собственная реализация), COCO API.
Шаги:
- Загрузить предобученную VL-модель (LLaVA-1.5).
- Выбрать 100 изображений из COCO val, для каждого есть 5 эталонных подписей.
- Сгенерировать подписи моделью (prompt: «Describe this image in one sentence»).
- Вычислить SPICE для каждой пары (гипотеза, эталон), усреднить.
- Провести human evaluation: попросить 3 человек оценить 20 случайных ответов по шкале 1-5 (correctness, helpfulness, conciseness).
- Сравнить корреляцию SPICE с human scores (коэффициент Спирмена).
Ожидаемый результат Вы увидите, что SPICE хорошо коррелирует с correctness, но слабо — с conciseness. Это демонстрирует ограничения автоматических метрик.
Связь с другими вопросами
| Вопрос | Тема |
|---|---|
| 5 | Оценка качества retrieval в RAG |
| 12 | Метрики для RAG (RAGAS, faithfulness) |
| 45 | Fine-tuning VL-моделей |
| 120 | Архитектура Agentic RAG |
| 230 | Сравнение human vs automatic evaluation в NLP |
| 340 | Scene Graph Generation |
Навигация
- Предыдущий: 559
- Следующий: 561
- Индекс: 00. Индекс разборов