VLM

Определение

Мультимодальная модель, объединяющая обработку визуальной и текстовой информации; применяется для задач captioning, VQA и оценки галлюцинаций.