中文翻译暂不可用,显示俄语原文。
ViLT
ViLT
Определение
Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но уступает в точности моделям с выделенным кодировщиком изображений.