中文翻译暂不可用,显示俄语原文。

Vision encoder

Vision encoder

Определение

Компонент мультимодальных моделей (например, GPT-4V, LLaVA), который извлекает признаки из изображений и проецирует их в пространство LLM. Часто реализуется на базе Vision Transformer (ViT).

Где встречается

Навигация