中文翻译暂不可用,显示俄语原文。
BLIP-2
BLIP-2
Определение
Улучшенная версия BLIP, использующая Q-Former для соединения замороженного vision encoder и frozen LLM. Показывает высокую эффективность в задачах vision-language, таких как image captioning.
Где встречается
- 116. Как вы индексируете видео-контент в RAG-системе
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 541. Как вы делаете RAG для изображений (image retrieval without text)
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
- 563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)
- 800+ вопросов