ViLT

ViLT

Определение

Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но уступает в точности моделям с выделенным кодировщиком изображений.

Где встречается

Навигация