Vision-Language Models

Определение

Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков MEGA и MM-Vet.

Где встречается

560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
800+ вопросов

Vision-Language Models

Vision-Language Models

Определение

Где встречается

Навигация