Word-patch alignment (WPA)
Word-patch alignment (WPA)
Определение
Word-patch alignment (WPA) — это задача кросс-модального обучения в NLP, которая заключается в выравнивании текстовых токенов (слов) с соответствующими им визуальными патчами (фрагментами изображения) на уровне отдельных элементов. В контексте LayoutLMv2 WPA использовалась для обучения модели связывать текстовые и визуальные признаки, но в LayoutLMv3 от неё отказались, поскольку конкатенация последовательностей текста и изображений уже обеспечивает необходимое кросс-модальное обучение.