Cross-modal learning

Определение

Кросс-модальное обучение — это подход в машинном обучении, при котором модель обучается одновременно на данных из разных модальностей (например, текст, изображения, звук, пространственное расположение), чтобы выявлять и использовать взаимосвязи между ними. В контексте обработки документов это позволяет модели связывать текстовую информацию с визуальными и пространственными признаками, повышая качество понимания сложных документов. В LayoutLMv3 кросс-модальное обучение реализуется за счёт конкатенации последовательностей текстовых, визуальных и позиционных эмбеддингов, что устраняет необходимость в отдельных задачах предсказания связей между модальностями, таких как задача WPA (Word-Patch Alignment).

Где встречается

920. Как работает LayoutLMv3? Почему он лучше, чем просто OCR + BERT, для понимания отсканированных документов?

Cross-modal learning

Cross-modal learning

Определение

Где встречается

Навигация