Поиск

  • wikiparsing

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiHeader Accuracy

    # Header Accuracy ## Определение Доля правильно распознанных заголовков при парсинге документов. Целевой порог — более 95%. ## Где встречается - [[527. Как вы проверяете…

  • wikipython-docx

    # python-docx ## Определение Библиотека для извлечения текста и структуры из Word-документов (.docx). Часто применяется в RAG-системах для парсинга

  • wikiList Preservation

    # List Preservation ## Определение Метрика качества парсинга документов, показывающая долю корректно извлечённых списков с пороговым значением > 90%. ## Где встречается - [[527. Как…

  • wikiCharacter Error Rate

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikijiwer

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikipdfminer.six

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiStreaming parsing

    # Streaming parsing ## Определение Обработка больших документов по частям для экономии памяти и снижения задержки при парсинге. ## Где встречается - [[272. Как…

  • wikiWord Error Rate

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiTable Extraction Score

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiStructure preservation

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?

    …Метрики мониторинга: - [[Вики/stake\|Доля]] документов, успешно прошедших [[Вики/parsing\|парсинг]] (без ошибок). - Средняя длина извлечённого текста (сравнение с ожидаемой…

  • wikiUnstructured

    # Unstructured ## Определение Библиотека для парсинга неструктурированных документов (PDF, Word, изображения и др.) с поддержкой layout detection, OCR и chunking. Используется…

  • answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production? ## Краткий тезис Проверка качества парсинга в production — это непрерывный процесс…

  • wikitabula-py

    # tabula-py ## Определение Python-обёртка для Tabula, используемая для парсинга таблиц из PDF-документов. ## Где встречается - [[272. Как вы проверяете…

  • wikiSentry

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiReal-time обработка документов

    # Real-time обработка документов ## Определение Система, принимающая новый документ и за секунды выполняющая его парсинг, чанкинг, эмбеддинг и добавление в…

  • wikirouge-score

    # rouge-score ## Определение Метрика для сравнения текстов, основанная на n-граммах, используемая при оценке качества парсинга документов. ## Где встречается - [[272…

  • wikiPyPDF2

    # PyPDF2 ## Определение Библиотека для парсинга PDF-документов, извлечения текста и метаданных. Один из инструментов для обработки документов в RAG-пайплайнах…

  • wikiSanitizing parsing

    # Sanitizing parsing ## Определение Извлечение только безопасного текста или XML из документов (например, DOCX с макросами) для предотвращения атак. ## Где встречается…

  • wikilxml

    # lxml ## Определение Библиотека для парсинга HTML и XML на Python. Позволяет извлекать данные из веб-страниц и XML-документов с…

  • wikiTable recovery accuracy

    # Table recovery accuracy ## Определение Доля ячеек таблицы, извлечённых с правильным содержимым и порядком, используемая для оценки качества парсинга документов. ## Где…

  • wikiCJK

    # CJK ## Определение CJK (Chinese, Japanese, Korean) — наборы символов восточноазиатских языков, которые вызывают проблемы при парсинге документов из-за многобайтовых кодировок…

  • wikiChunkization

    …перед парсингом для обработки больших объёмов в RAG-системах. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX…

  • wikiOLE

    …DOCX, требующая санирующего парсинга для корректного извлечения данных. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…

  • wikiIngestion service

    # Ingestion service ## Определение Микросервис, выполняющий парсинг, чанкование и эмбеддинг документов из очереди (например, Kafka) для загрузки в векторное хранилище. ## Где…

  • wikistructured loss metrics

    # structured loss metrics ## Определение Метрики для оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при…

  • wikiIntersection over Union

    …используемая для оценки качества парсинга PDF. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272…

  • wikiUnicode replacement character

    …последовательностей при парсинге текста, указывая на ошибку кодирования. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…

  • wikiCPU-bound

    парсинг PDF). ## Где встречается - [[13. Как вы загружаете 1000 документов в RAG максимально эффективно|13. Как вы загружаете 1000 документов

  • wikiELK

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikipdfplumber

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiDocling

    # Docling ## Определение Open-source библиотека от IBM Research для парсинга документов (PDF, Word, сканы) в структурированный Markdown с сохранением таблиц…

  • wikiLlamaCloud

    # LlamaCloud ## Определение Управляемый сервис парсинга документов от LlamaIndex для сложных форматов (PDF, HTML). ## Где встречается - [[41. LangChain vs LlamaIndex vs…

  • wikiBeautifulSoup

    # BeautifulSoup ## Определение Библиотека для парсинга HTML и извлечения текста из веб-страниц, часто используется в ETL-пайплайнах для очистки данных…

  • wikisequence parallelism

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы загружаете 1000 документов в RAG максимально эффективно?

    …Цифра Наивный [[Вики/User feedback\|цикл]] (последовательно: [[Вики/parsing\|парсинг]] → [[Вики/embedding\|эмбеддинг]] → вставка) загружает 1000 документов за 30-60…

  • wikiingestion

    # ingestion ## Определение Ingestion (инжест, загрузка данных) — первый этап RAG пайплайна, включающий загрузку и парсинг документов различных форматов (PDF, Word, HTML…

  • wikiPDF

    # PDF ## Определение Формат документов с фиксированным макетом, широко используемый в RAG-системах. Сложность парсинга связана с отсутствием логической структуры, требуются…

  • wikiConsumer

    …их для парсинга, индексации или retrieval. ## Где встречается - [[266. Как вы делаете incremental ingestion для часто меняющихся документов|266. Как…

  • answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?

    …падении процента успешных парсингов ниже порога. --- ## Пет-проект для закрепления [[Вики/Task\|Задача]] Разработать систему парсинга документов для [[Вики/RAG…

  • answerКак проектировать ETL vs ELT для RAG?

    …предпочтительнее для небольших и средних объёмов (<1M документов), когда [[Вики/parsing\|парсинг]] и [[Вики/chunking\|чанкинг]] — дорогие операции, которые не…

  • answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?

    …вместо фиксированной длины — улучшает качество retrieval. - Кэшировать результаты парсинга для повторяющихся документов. Оптимизация эмбеддинга - Использовать GPU для batch inference. - Выбрать…

  • wikiTesseract OCR

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiPaddleOCR

    …Применяется в RAG-системах для парсинга документов. ## Где встречается - [[112. Как вы извлекаете логические отношения из диаграммы, а не просто…

  • answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?

    …млн документов в день в RAG-систему требует event-driven архитектуры на основе Kafka, сервиса **ingestion** для парсинга, чанкования и…

  • wikiрегрессионное тестирование

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • wikiGitHub Actions

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…

  • answerКак вы проектируете Kafka топологии для RAG ingestion?

    …приём сырых документов (`[[Вики/documents\|documents]].raw`), [[Вики/parsing\|парсинг]] и [[Вики/chunking\|чанкинг]] (`[[Вики/documents\|documents]].[[Вики/chunking\|chunks…

  • wikiGoldenset

    …Как вы проверяете качество парсинга документов (PDF, DOCX) в production|527. Как вы проверяете качество парсинга документов (PDF, DOCX) в…