Flickr30k
Flickr30k
Определение
Датасет, содержащий изображения с текстовыми подписями, используется для обучения и тестирования задач image captioning и retrieval, в том числе для мультимодальных моделей.
Где встречается
- 232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
- 563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)