Q-Former

Определение

Модуль-мост между frozen vision encoder и frozen LLM в архитектуре BLIP-2. Использует learnable query tokens для извлечения визуальных признаков и передачи их в языковую модель.

Где встречается

117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
367. Что такое Q-Former в BLIP-2 и зачем он нужен
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
540. Как работает Q-Former в BLIP-2 и зачем он нужен
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
800+ вопросов

Q-Former

Q-Former

Определение

Где встречается

Навигация