BLIP-2

Определение

Улучшенная версия BLIP, использующая Q-Former для соединения замороженного vision encoder и frozen LLM. Показывает высокую эффективность в задачах vision-language, таких как image captioning.

Где встречается

116. Как вы индексируете видео-контент в RAG-системе
117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
367. Что такое Q-Former в BLIP-2 и зачем он нужен
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
540. Как работает Q-Former в BLIP-2 и зачем он нужен
541. Как вы делаете RAG для изображений (image retrieval without text)
547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)
800+ вопросов

BLIP-2

BLIP-2

Определение

Где встречается

Навигация