Vision encoder

Определение

Компонент мультимодальных моделей (например, GPT-4V, LLaVA), который извлекает признаки из изображений и проецирует их в пространство LLM. Часто реализуется на базе Vision Transformer (ViT).

Где встречается

362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
367. Что такое Q-Former в BLIP-2 и зачем он нужен
370. Как вы проектируете систему для real-time video understanding (поток с камер)
537. Что такое SigLIP и чем отличается от CLIP
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
540. Как работает Q-Former в BLIP-2 и зачем он нужен
541. Как вы делаете RAG для изображений (image retrieval without text)
549. Как вы проектируете систему для real-time video understanding (поток с камеры)
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
553. Что такое LayoutLMv3 и зачем он для document understanding
554. Как вы делаем image retrieval по тексту с высокой точностью
564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
800+ вопросов
92. Профилировать GPU utilization падение

Vision encoder

Vision encoder

Определение

Где встречается

Навигация