COCO Captions
COCO Captions
Определение
Датасет, расширяющий COCO, содержащий по 5 эталонных текстовых описаний (captions) для каждого изображения; используется для обучения и оценки моделей генерации подписей и мультимодального понимания.
Где встречается
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей