Поиск
- wikiparsing
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiHeader Accuracy
# Header Accuracy ## Определение Доля правильно распознанных заголовков при парсинге документов. Целевой порог — более 95%. ## Где встречается - [[527. Как вы проверяете…
- wikipython-docx
# python-docx ## Определение Библиотека для извлечения текста и структуры из Word-документов (.docx). Часто применяется в RAG-системах для парсинга…
- wikiList Preservation
# List Preservation ## Определение Метрика качества парсинга документов, показывающая долю корректно извлечённых списков с пороговым значением > 90%. ## Где встречается - [[527. Как…
- wikiCharacter Error Rate
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikijiwer
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikipdfminer.six
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiStreaming parsing
# Streaming parsing ## Определение Обработка больших документов по частям для экономии памяти и снижения задержки при парсинге. ## Где встречается - [[272. Как…
- wikiWord Error Rate
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiTable Extraction Score
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiStructure preservation
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?
…Метрики мониторинга: - [[Вики/stake\|Доля]] документов, успешно прошедших [[Вики/parsing\|парсинг]] (без ошибок). - Средняя длина извлечённого текста (сравнение с ожидаемой…
- wikiUnstructured
# Unstructured ## Определение Библиотека для парсинга неструктурированных документов (PDF, Word, изображения и др.) с поддержкой layout detection, OCR и chunking. Используется…
- answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production? ## Краткий тезис Проверка качества парсинга в production — это непрерывный процесс…
- wikitabula-py
# tabula-py ## Определение Python-обёртка для Tabula, используемая для парсинга таблиц из PDF-документов. ## Где встречается - [[272. Как вы проверяете…
- wikiSentry
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiReal-time обработка документов
# Real-time обработка документов ## Определение Система, принимающая новый документ и за секунды выполняющая его парсинг, чанкинг, эмбеддинг и добавление в…
- wikirouge-score
# rouge-score ## Определение Метрика для сравнения текстов, основанная на n-граммах, используемая при оценке качества парсинга документов. ## Где встречается - [[272…
- wikiPyPDF2
# PyPDF2 ## Определение Библиотека для парсинга PDF-документов, извлечения текста и метаданных. Один из инструментов для обработки документов в RAG-пайплайнах…
- wikiSanitizing parsing
# Sanitizing parsing ## Определение Извлечение только безопасного текста или XML из документов (например, DOCX с макросами) для предотвращения атак. ## Где встречается…
- wikilxml
# lxml ## Определение Библиотека для парсинга HTML и XML на Python. Позволяет извлекать данные из веб-страниц и XML-документов с…
- wikiTable recovery accuracy
# Table recovery accuracy ## Определение Доля ячеек таблицы, извлечённых с правильным содержимым и порядком, используемая для оценки качества парсинга документов. ## Где…
- wikiCJK
# CJK ## Определение CJK (Chinese, Japanese, Korean) — наборы символов восточноазиатских языков, которые вызывают проблемы при парсинге документов из-за многобайтовых кодировок…
- wikiChunkization
…перед парсингом для обработки больших объёмов в RAG-системах. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX…
- wikiOLE
…DOCX, требующая санирующего парсинга для корректного извлечения данных. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- wikiIngestion service
# Ingestion service ## Определение Микросервис, выполняющий парсинг, чанкование и эмбеддинг документов из очереди (например, Kafka) для загрузки в векторное хранилище. ## Где…
- wikistructured loss metrics
# structured loss metrics ## Определение Метрики для оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при…
- wikiIntersection over Union
…используемая для оценки качества парсинга PDF. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272…
- wikiUnicode replacement character
…последовательностей при парсинге текста, указывая на ошибку кодирования. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- wikiCPU-bound
…парсинг PDF). ## Где встречается - [[13. Как вы загружаете 1000 документов в RAG максимально эффективно|13. Как вы загружаете 1000 документов…
- wikiELK
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikipdfplumber
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiDocling
# Docling ## Определение Open-source библиотека от IBM Research для парсинга документов (PDF, Word, сканы) в структурированный Markdown с сохранением таблиц…
- wikiLlamaCloud
# LlamaCloud ## Определение Управляемый сервис парсинга документов от LlamaIndex для сложных форматов (PDF, HTML). ## Где встречается - [[41. LangChain vs LlamaIndex vs…
- wikiBeautifulSoup
# BeautifulSoup ## Определение Библиотека для парсинга HTML и извлечения текста из веб-страниц, часто используется в ETL-пайплайнах для очистки данных…
- wikisequence parallelism
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы загружаете 1000 документов в RAG максимально эффективно?
…Цифра Наивный [[Вики/User feedback\|цикл]] (последовательно: [[Вики/parsing\|парсинг]] → [[Вики/embedding\|эмбеддинг]] → вставка) загружает 1000 документов за 30-60…
- wikiingestion
# ingestion ## Определение Ingestion (инжест, загрузка данных) — первый этап RAG пайплайна, включающий загрузку и парсинг документов различных форматов (PDF, Word, HTML…
- wikiPDF
# PDF ## Определение Формат документов с фиксированным макетом, широко используемый в RAG-системах. Сложность парсинга связана с отсутствием логической структуры, требуются…
- wikiConsumer
…их для парсинга, индексации или retrieval. ## Где встречается - [[266. Как вы делаете incremental ingestion для часто меняющихся документов|266. Как…
- answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?
…падении процента успешных парсингов ниже порога. --- ## Пет-проект для закрепления [[Вики/Task\|Задача]] Разработать систему парсинга документов для [[Вики/RAG…
- answerКак проектировать ETL vs ELT для RAG?
…предпочтительнее для небольших и средних объёмов (<1M документов), когда [[Вики/parsing\|парсинг]] и [[Вики/chunking\|чанкинг]] — дорогие операции, которые не…
- answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
…вместо фиксированной длины — улучшает качество retrieval. - Кэшировать результаты парсинга для повторяющихся документов. Оптимизация эмбеддинга - Использовать GPU для batch inference. - Выбрать…
- wikiTesseract OCR
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiPaddleOCR
…Применяется в RAG-системах для парсинга документов. ## Где встречается - [[112. Как вы извлекаете логические отношения из диаграммы, а не просто…
- answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
…млн документов в день в RAG-систему требует event-driven архитектуры на основе Kafka, сервиса **ingestion** для парсинга, чанкования и…
- wikiрегрессионное тестирование
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- wikiGitHub Actions
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…
- answerКак вы проектируете Kafka топологии для RAG ingestion?
…приём сырых документов (`[[Вики/documents\|documents]].raw`), [[Вики/parsing\|парсинг]] и [[Вики/chunking\|чанкинг]] (`[[Вики/documents\|documents]].[[Вики/chunking\|chunks…
- wikiGoldenset
…Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…