ViLT
ViLT
Определение
Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но уступает в точности моделям с выделенным кодировщиком изображений.
Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но уступает в точности моделям с выделенным кодировщиком изображений.