Поиск

answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…Как работает OCR для RAG? Недостатки и когда его недостаточно? ## Краткий тезис **[[Вики/Tesseract OCR\|OCR]] ([[Вики/Tesseract OCR\|Optical…
wikiTrOCR
# TrOCR ## Определение Модель на основе Transformer для распознавания текста, включая рукописный, используемая в OCR для RAG. ## Где встречается - [[550. Как…
answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…OCR + текстовый RAG (OCR-based RAG) **[[Вики/Tesseract OCR\|OCR]] ([[Вики/Tesseract OCR\|Optical Character Recognition]])** — технология распознавания текста на…
wikiCRNN
# CRNN ## Определение Архитектура нейронной сети, комбинирующая свёрточные и рекуррентные слои, применяемая в OCR для распознавания текста. ## Где встречается - [[550. Как…
wikiHTR
# HTR ## Определение Технология распознавания рукописного текста, альтернатива OCR для обработки рукописных заметок. Применяется в RAG-системах для извлечения текста из…
wikiLayout-aware parsing
…Альтернатива наивному OCR, необходимая для корректного представления документа в RAG. ## Где встречается - [[550. Как работает OCR для RAG Недостатки и…
wikiEasyOCR
# EasyOCR ## Определение Библиотека оптического распознавания символов (OCR) на основе глубокого обучения, простая в использовании и хорошо работающая с нестандартными шрифтами…
answerЧто такое LayoutLMv3 и зачем он для document understanding?
…До [[Вики/LayoutLMv3\|LayoutLMv3]] для DU использовались отдельные модели: [[Вики/Tesseract OCR\|OCR]] ([[Вики/Tesseract OCR\|Tesseract]]), парсеры разметки ([[Вики…
answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…3. [[Вики/Tesseract OCR\|OCR]] числовых значений на осях и внутри графика ([[Вики/Tesseract OCR\|Tesseract]], [[Вики/PaddleOCR\|PaddleOCR]]). 4…
wikiCRAFT
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
wikiLayoutParser
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…OCR + фильтрация текста Идея Извлечь весь текст из изображения с помощью [[Вики/Tesseract OCR\|OCR]] ([[Вики/Tesseract OCR\|Optical Character…
wikiTesseract OCR
# Tesseract OCR ## Определение Инструмент оптического распознавания символов (OCR) для извлечения текста из сканов и изображений. Применяется в RAG-пайплайнах, но…
answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…OCR текста внутри узлов После детекции для каждого bounding box узла применяется OCR. [[Вики/Tesseract OCR\|Tesseract]] — бесплатный, хорошо работает…
wikiDetectron2
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
wikiPaddleOCR
# PaddleOCR ## Определение Библиотека OCR от Baidu с высокой точностью на кириллице, используемая для извлечения текста из изображений, сканов и видео…
wikiUnstructured
# Unstructured ## Определение Библиотека для парсинга неструктурированных документов (PDF, Word, изображения и др.) с поддержкой layout detection, OCR и chunking. Используется…
wikiTable Transformer
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
wikiVL-LLM
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
answerКак вы представляете граф знаний из изображения для LLM?
…Для этого применяются: - [[Вики/Tesseract OCR\|OCR]] ([[Вики/Tesseract OCR\|Optical Character Recognition]]) — [[Вики/retrieval\|извлечение]] текста из областей. Современные…
answerКак вы извлекаете *логические отношения* из диаграммы, а не просто текст?
…низкое [[Вики/Scope\|разрешение]], рукописные [[Вики/template circuits\|схемы]], плохой контраст. - [[Вики/Tesseract OCR\|OCR]] [[Вики/ошибки\|ошибки]]: текст на…
answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?
…CI/CD Pipeline для регрессионного тестирования При каждом изменении парсера ([[Вики/candidate\|новая версия]] библиотеки, кастомный алгоритм, OCR-модель) должен…
wikiтекстовый RAG
…Неприменим для мультимодальных данных (изображения, таблицы) без дополнительной обработки, например OCR. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
wikiDeskew
# Deskew ## Определение Предобработка изображений для устранения перекоса (неправильного угла наклона) перед распознаванием текста (OCR). ## Где встречается - [[272. Как вы проверяете…
wikiDocTR
# DocTR ## Определение End-to-end решение для оптического распознавания символов (OCR), позволяющее извлекать текст из изображений и сканов документов. ## Где…
wikiGPT-4V
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
wikiПовёрнутый текст
# Повёрнутый текст ## Определение Текст в PDF-документе, расположенный под углом, что может затруднять его распознавание OCR-библиотеками; требует предварительной коррекции…
answerЧто такое Layout-Aware Chunking и как он связан с мультимодальностью?
…Инструменты: `[[Вики/pdfplumber\|PyMuPDF]]` ([[Вики/pdfplumber\|fitz]]), `[[Вики/pdfplumber\|pdfplumber]]`, `[[Вики/Camelot\|Camelot]]` (для таблиц), `[[Вики/Tesseract OCR\|Tesseract]]` ([[Вики…
wikiDonut
# Donut ## Определение End-to-end модель для распознавания и понимания документов, включая математические выражения, работающая без OCR. ## Где встречается - [[542…
answerКак вы делаете extraction таблиц из PDF для RAG?
…df = table.df # pandas DataFrame print(f"Table {i}: {df.shape}") ``` Если таблица — изображение, нужен [[Вики/Tesseract OCR\|OCR]] ([[Вики…
wikiLLaVA
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?
…Как вы делаете data quality monitoring для RAG корпуса\|530]] | Как вы обрабатываете сканированные документы (OCR)? | | [[501. Что такое Path…
answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?
…Каждый этап может быть реализован как отдельный компонент, что упрощает замену или добавление шагов (например, [[Вики/Tesseract OCR\|OCR]] для…
answerКак вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
…диаграмма — изображение → используем [[Вики/multimodal embedding\|мультимодальный эмбеддер]] (например, [[Вики/CLIP\|CLIP]]) для поиска изображений, затем [[Вики/Tesseract OCR\|OCR…
wikiмультимодальный RAG
…по данным разных типов (текст, изображения, диаграммы), превосходящая подход «OCR + текстовый RAG» за счёт сохранения логических связей. ## Где встречается - [[112…
answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
…для Word. - [[Вики/Tesseract OCR\|Tesseract]] + [[Вики/EasyOCR\|easyocr]] — для изображений ([[Вики/Tesseract OCR\|OCR]]), только если нужен текст со…
wikiгибридный поиск
…Как работает OCR для RAG Недостатки и когда его недостаточно|550. Как работает OCR для RAG Недостатки и когда его…
answerКак вы обрабатываете corrupted или empty документы в ingestion пайплайне?
…пустая [[Вики/блок фиксированного размера\|страница]], сканированное изображение без [[Вики/Tesseract OCR\|OCR]], документ только с метаданными. - **[[Вики/Dead letter…
answerКак вы индексируете видео-контент в RAG-системе?
…Позволяет искать по фразам конкретного человека. - OCR-текст — если в видео есть текст на экране (слайды, титры). Используйте `[[Вики/PaddleOCR…
answerКак проектировать ETL vs ELT для RAG?
…text документа (может быть [[Вики/PDF\|PDF]] → [[Вики/Tesseract OCR\|OCR]] → [[Вики/text\|text]] → структура); - применения правил разделения (paragraph chunking…
answerКак работает AudioLM и MusicGen для генерации аудио?
…Как работает OCR для RAG Недостатки и когда его недостаточно\|550]] | Как работают модели для генерации речи (TTS)? | | [[552. Как…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…GPT-4V пришлось бы ресайзить, что снижает качество OCR. 3. [[Вики/end-to-end learning\|Сквозное обучение]]: модель учится извлекать…
answerКак вы проектируете систему для real-time video understanding (поток с камеры)?
…Как работает OCR для RAG Недостатки и когда его недостаточно\|550]] | Как вы реализуете agentic loop с обратной связью от…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG на 100 PDF
…4. [[Вики/Docling не работает\|Docling не работает]] – извлекаем текст через PyMuPDF (fitz) или pdfplumber, а для изображений используем OCR…
answerКак бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
…файлами | | Сканы (JPG/PNG | `Tesseract OCR` (Docling имеет встроенный) | Извлекает текст из изображений | OCR (Optical Character Recognition — технология распознавания текста…
answerКакое будущее у DSPy? Вытеснит ли он LangChain в 2026-2027?
…Чем мультимодальный RAG отличается от «OCR + текстовый RAG» Почему второго недостаточно\|111]] - Индекс: [[00. Индекс разборов]]
answerКак вы планируете масштабирование команды вокруг LLM-системы?
…Нанимают Data Engineer, который строит пайплайн с OCR и чанкингом – продуктивность команды растёт в 2 раза. ## 4. Структуры команд: функциональная…
answerЧто такое curriculum learning на уровне данных для LLM?
…легко предсказывает) | Высокая (модель ошибается) | | Наличие шума | Чистый текст | OCR-ошибки, опечатки, разметка | [[Вики/метрика сложности\|Метрика сложности]] часто вычисляется…
answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…вывеске?», [[Вики/Kosmos-2\|Kosmos-2]] локализует вывеску, затем OCR-модуль читает текст. - [[Вики/мультимодальный RAG\|Мультимодальный RAG]] изображение разбивается…
answerКак тестировать robustness LLM к adversarial inputs?
…Как работает OCR для RAG Недостатки и когда его недостаточно\|550]] | Prompt injection и защита от него | | [[412. Как вы…