Q-Former
Q-Former
Определение
Модуль-мост между frozen vision encoder и frozen LLM в архитектуре BLIP-2. Использует learnable query tokens для извлечения визуальных признаков и передачи их в языковую модель.
Где встречается
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 800+ вопросов