Flamingo
Flamingo
Определение
Мультимодальная модель DeepMind с замороженным vision encoder и gated cross-attention для обработки текста и изображений.
Где встречается
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)