English translation is not available yet. Showing Russian content.
Vision-Language Models
Vision-Language Models
Определение
Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков MEGA и MM-Vet.