OCR to BERT pipeline

OCR to BERT pipeline

Определение

OCR to BERT pipeline — это архитектурный подход, при котором сначала выполняется оптическое распознавание символов (OCR) для извлечения текста из изображения документа, а затем полученный плоский текст подаётся на вход модели BERT для решения задач NLP (например, классификации, извлечения сущностей). Основной недостаток такого пайплайна — потеря пространственной структуры документа: колонки, таблицы, относительное расположение блоков текста не учитываются, что критично для понимания сложных макетов.

Где встречается

Навигация