Vision-Language Models

Vision-Language Models

Определение

Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков MEGA и MM-Vet.

Где встречается

Навигация