Vision encoder
Vision encoder
Определение
Компонент мультимодальных моделей (например, GPT-4V, LLaVA), который извлекает признаки из изображений и проецирует их в пространство LLM. Часто реализуется на базе Vision Transformer (ViT).
Где встречается
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 370. Как вы проектируете систему для real-time video understanding (поток с камер)
- 537. Что такое SigLIP и чем отличается от CLIP
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 541. Как вы делаете RAG для изображений (image retrieval without text)
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 553. Что такое LayoutLMv3 и зачем он для document understanding
- 554. Как вы делаем image retrieval по тексту с высокой точностью
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
- 800+ вопросов
- 92. Профилировать GPU utilization падение