CIDEr
CIDEr
Определение
Метрика оценки качества описаний изображений (captioning), основанная на взвешенной TF-IDF n-грамм и сравнении с эталонными описаниями.
Где встречается
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей