Поиск

  • wikiparsing

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikipdfminer.six

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikijiwer

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiCharacter Error Rate

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikipython-docx

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiHeader Accuracy

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiList Preservation

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?

    …Инструменты парсинга и их влияние на качество | Инструмент | Форматы | Сильные стороны | Слабые стороны | |------------|---------|-----------------|----------------| | [[Вики/pdfminer.six\|pdfminer.six]] | PDF | Точное…

  • wikiUnstructured

    # Unstructured ## Определение Библиотека для парсинга неструктурированных документов (PDF, Word, изображения и др.) с поддержкой layout detection, OCR и chunking. Используется…

  • wikiWord Error Rate

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?

    …Инструменты и библиотеки для парсинга | Формат | Популярные инструменты | Особенности | |--------|------------------------|-------------| | PDF (текстовый слой) | `PyMuPDF` (`fitz`), `pdfplumber`, `pdfminer.six` | `pdfplumber` хорошо извлекает…

  • wikiStreaming parsing

    …и снижения задержки при парсинге. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как…

  • wikiCorrupted PDF

    # Corrupted PDF ## Определение PDF-файл с ошибками структуры, приводящими к сбоям при парсинге в ETL пайплайне. ## Где встречается - [[800+ вопросов…

  • wikiTable Extraction Score

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiStructure preservation

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiPDF

    # PDF ## Определение Формат документов с фиксированным макетом, широко используемый в RAG-системах. Сложность парсинга связана с отсутствием логической структуры, требуются…

  • wikitabula-py

    # tabula-py ## Определение Python-обёртка для Tabula, используемая для парсинга таблиц из PDF-документов. ## Где встречается - [[272. Как вы проверяете…

  • wikiSentry

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiChartQA

    # ChartQA ## Определение Датасет и модель для ответов на вопросы по графикам, применяемые при парсинге сложных PDF с таблицами и графиками…

  • wikiDePlot

    …Применяется для парсинга сложных PDF с таблицами и графиками. ## Где встречается - [[542. Как вы парсите сложные PDF с таблицами и…

  • wikiIntersection over Union

    # Intersection over Union ## Определение Метрика, измеряющая перекрытие предсказанной и истинной областей (например, границ абзацев), используемая для оценки качества парсинга PDF

  • wikiQwen-VL

    # Qwen-VL ## Определение Мультимодальная языковая модель от Alibaba, способная обрабатывать текст и изображения; применяется для парсинга сложных PDF с таблицами…

  • wikiChunkization

    …перед парсингом для обработки больших объёмов в RAG-системах. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX…

  • wikistructured loss metrics

    …оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при извлечении данных из PDF/DOCX. ## Где…

  • wikiOLE

    …требующая санирующего парсинга для корректного извлечения данных. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production…

  • wikirouge-score

    …используемая при оценке качества парсинга документов. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272…

  • wikipdfplumber

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiSanitizing parsing

    …Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…

  • answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?

    …str) -> Dict[str, Any]: # Имитация парсинга PDF text = "PDF content placeholder" return {"text": text, "metadata": {"format": "pdf"}, "format_version": "2…

  • wikiTable recovery accuracy

    …используемая для оценки качества парсинга документов. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272…

  • wikiCJK

    # CJK ## Определение CJK (Chinese, Japanese, Korean) — наборы символов восточноазиатских языков, которые вызывают проблемы при парсинге документов из-за многобайтовых кодировок…

  • wikiUnicode replacement character

    …последовательностей при парсинге текста, указывая на ошибку кодирования. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…

  • wikiELK

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikisemantic HTML

    # semantic HTML ## Определение Формат вывода, сохраняющий структуру документа (заголовки, списки) при парсинге сложных PDF. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiDocling

    # Docling ## Определение Open-source библиотека от IBM Research для парсинга документов (PDF, Word, сканы) в структурированный Markdown с сохранением таблиц…

  • wikiPyPDF2

    # PyPDF2 ## Определение Библиотека для парсинга PDF-документов, извлечения текста и метаданных. Один из инструментов для обработки документов в RAG-пайплайнах…

  • wikiLlamaCloud

    # LlamaCloud ## Определение Управляемый сервис парсинга документов от LlamaIndex для сложных форматов (PDF, HTML). ## Где встречается - [[41. LangChain vs LlamaIndex vs…

  • wikiPaddleOCR

    …Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…

  • wikisequence parallelism

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами

    …3. [[Вики/Изображение\|Изображение]] – сохраните отдельно, если в PDF оно плохо читается. ## 3. Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Парсинг PDF

  • wikiCPU-bound

    # CPU-bound ## Определение Тип операций, где производительность ограничена CPU, а не GPU; требует особой параллелизации (например, парсинг PDF). ## Где встречается…

  • wikiTesseract OCR

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?

    …Как вы парсите сложные PDF с таблицами и графиками (не просто текст)? ## Краткий тезис [[Вики/parsing\|Парсинг]] сложных [[Вики/PDF

  • wikiрегрессионное тестирование

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак проектировать ETL vs ELT для RAG?

    …Extract (PDF через API MinIO), Transform (парсинг → чанки → эмбеддинги), Load в Qdrant. Положить raw-копию в MinIO с префиксом `/raw…

  • wikiGitHub Actions

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы проектируете Kafka топологии для RAG ingestion?

    …2. [[Вики/parsing\|Парсинг]] — [[Вики/retrieval\|извлечение]] текста, таблиц, изображений ([[Вики/PDF\|PDF]], [[Вики/HTML\|HTML]], [[Вики/DOCX\|Docx]]). 3…

  • answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?

    …Transform — парсинг и очистка [[Вики/parsing\|Парсинг]] — [[Вики/retrieval\|извлечение]] текста из форматов: [[Вики/PDF\|PDF]], Word, [[Вики/HTML\|HTML…

  • wikiGoldenset

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак проектировать Airflow DAG для RAG ingestion?

    …new_files) # Парсинг PDF через Spark parse = SparkSubmitOperator( task_id='parse_pdfs', application='/opt/spark_apps/parse_pdfs.py', name…