Поиск
- wikiparsing
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikipdfminer.six
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikijiwer
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiCharacter Error Rate
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikipython-docx
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiHeader Accuracy
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiList Preservation
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?
…Инструменты парсинга и их влияние на качество | Инструмент | Форматы | Сильные стороны | Слабые стороны | |------------|---------|-----------------|----------------| | [[Вики/pdfminer.six\|pdfminer.six]] | PDF | Точное…
- wikiUnstructured
# Unstructured ## Определение Библиотека для парсинга неструктурированных документов (PDF, Word, изображения и др.) с поддержкой layout detection, OCR и chunking. Используется…
- wikiWord Error Rate
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?
…Инструменты и библиотеки для парсинга | Формат | Популярные инструменты | Особенности | |--------|------------------------|-------------| | PDF (текстовый слой) | `PyMuPDF` (`fitz`), `pdfplumber`, `pdfminer.six` | `pdfplumber` хорошо извлекает…
- wikiStreaming parsing
…и снижения задержки при парсинге. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как…
- wikiCorrupted PDF
# Corrupted PDF ## Определение PDF-файл с ошибками структуры, приводящими к сбоям при парсинге в ETL пайплайне. ## Где встречается - [[800+ вопросов…
- wikiTable Extraction Score
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiStructure preservation
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiPDF
# PDF ## Определение Формат документов с фиксированным макетом, широко используемый в RAG-системах. Сложность парсинга связана с отсутствием логической структуры, требуются…
- wikitabula-py
# tabula-py ## Определение Python-обёртка для Tabula, используемая для парсинга таблиц из PDF-документов. ## Где встречается - [[272. Как вы проверяете…
- wikiSentry
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiChartQA
# ChartQA ## Определение Датасет и модель для ответов на вопросы по графикам, применяемые при парсинге сложных PDF с таблицами и графиками…
- wikiDePlot
…Применяется для парсинга сложных PDF с таблицами и графиками. ## Где встречается - [[542. Как вы парсите сложные PDF с таблицами и…
- wikiIntersection over Union
# Intersection over Union ## Определение Метрика, измеряющая перекрытие предсказанной и истинной областей (например, границ абзацев), используемая для оценки качества парсинга PDF…
- wikiQwen-VL
# Qwen-VL ## Определение Мультимодальная языковая модель от Alibaba, способная обрабатывать текст и изображения; применяется для парсинга сложных PDF с таблицами…
- wikiChunkization
…перед парсингом для обработки больших объёмов в RAG-системах. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX…
- wikistructured loss metrics
…оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при извлечении данных из PDF/DOCX. ## Где…
- wikiOLE
…требующая санирующего парсинга для корректного извлечения данных. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production…
- wikirouge-score
…используемая при оценке качества парсинга документов. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272…
- wikipdfplumber
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiSanitizing parsing
…Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?
…str) -> Dict[str, Any]: # Имитация парсинга PDF text = "PDF content placeholder" return {"text": text, "metadata": {"format": "pdf"}, "format_version": "2…
- wikiTable recovery accuracy
…используемая для оценки качества парсинга документов. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272…
- wikiCJK
# CJK ## Определение CJK (Chinese, Japanese, Korean) — наборы символов восточноазиатских языков, которые вызывают проблемы при парсинге документов из-за многобайтовых кодировок…
- wikiUnicode replacement character
…последовательностей при парсинге текста, указывая на ошибку кодирования. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- wikiELK
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikisemantic HTML
# semantic HTML ## Определение Формат вывода, сохраняющий структуру документа (заголовки, списки) при парсинге сложных PDF. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikiDocling
# Docling ## Определение Open-source библиотека от IBM Research для парсинга документов (PDF, Word, сканы) в структурированный Markdown с сохранением таблиц…
- wikiPyPDF2
# PyPDF2 ## Определение Библиотека для парсинга PDF-документов, извлечения текста и метаданных. Один из инструментов для обработки документов в RAG-пайплайнах…
- wikiLlamaCloud
# LlamaCloud ## Определение Управляемый сервис парсинга документов от LlamaIndex для сложных форматов (PDF, HTML). ## Где встречается - [[41. LangChain vs LlamaIndex vs…
- wikiPaddleOCR
…Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- wikisequence parallelism
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…3. [[Вики/Изображение\|Изображение]] – сохраните отдельно, если в PDF оно плохо читается. ## 3. Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Парсинг PDF…
- wikiCPU-bound
# CPU-bound ## Определение Тип операций, где производительность ограничена CPU, а не GPU; требует особой параллелизации (например, парсинг PDF). ## Где встречается…
- wikiTesseract OCR
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…Как вы парсите сложные PDF с таблицами и графиками (не просто текст)? ## Краткий тезис [[Вики/parsing\|Парсинг]] сложных [[Вики/PDF…
- wikiрегрессионное тестирование
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак проектировать ETL vs ELT для RAG?
…Extract (PDF через API MinIO), Transform (парсинг → чанки → эмбеддинги), Load в Qdrant. Положить raw-копию в MinIO с префиксом `/raw…
- wikiGitHub Actions
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы проектируете Kafka топологии для RAG ingestion?
…2. [[Вики/parsing\|Парсинг]] — [[Вики/retrieval\|извлечение]] текста, таблиц, изображений ([[Вики/PDF\|PDF]], [[Вики/HTML\|HTML]], [[Вики/DOCX\|Docx]]). 3…
- answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
…Transform — парсинг и очистка [[Вики/parsing\|Парсинг]] — [[Вики/retrieval\|извлечение]] текста из форматов: [[Вики/PDF\|PDF]], Word, [[Вики/HTML\|HTML…
- wikiGoldenset
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак проектировать Airflow DAG для RAG ingestion?
…new_files) # Парсинг PDF через Spark parse = SparkSubmitOperator( task_id='parse_pdfs', application='/opt/spark_apps/parse_pdfs.py', name…