English translation is not available yet. Showing Russian content.

Vision encoder

Vision encoder

Определение

Компонент мультимодальных моделей (например, GPT-4V, LLaVA), который извлекает признаки из изображений и проецирует их в пространство LLM. Часто реализуется на базе Vision Transformer (ViT).

Где встречается

Навигация