ViLT

Определение

Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но уступает в точности моделям с выделенным кодировщиком изображений.

Где встречается

117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind

ViLT

ViLT

Определение

Где встречается

Навигация