LayoutLMv3
LayoutLMv3
Определение
Трансформерная модель от Microsoft для анализа макета документов, работающая с тремя модальностями: текст, позиции токенов и изображение. Используется для распознавания заголовков, колонок и таблиц.
Где встречается
- 113. Как вы представляете граф знаний из изображения для LLM
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 542. Как вы парсите сложные PDF с таблицами и графиками (не просто текст)
- 553. Что такое LayoutLMv3 и зачем он для document understanding
- 800+ вопросов