VQA
VQA
Определение
Задача ответа на вопросы по изображению, BLIP-2 достигает высоких результатов
Где встречается
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей