Поиск

  • wikiМногостраничные таблицы

    # Многостраничные таблицы ## Определение Таблицы, разбитые на несколько страниц документа, требующие объединения фрагментов по ключу для корректного извлечения данных в RAG…

  • wikiсуммаризация таблицы

    # суммаризация таблицы ## Определение Метод сжатия больших таблиц или истории диалога через LLM в краткое текстовое описание. Применяется для уменьшения объёма…

  • wikirow-based retrieval

    # row-based retrieval ## Определение Стратегия извлечения только релевантных строк из большой таблицы, при которой каждая строка индексируется как отдельный чанк…

  • wikiTableRetrieverQueryEngine

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] ## Навигация…

  • wikiTAPAS

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] ## Навигация…

  • wikiStructured table formats

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] ## Навигация…

  • answerКак вы обрабатываете большие таблицы в RAG (500+ строк)?

    …Большие таблицы в RAG Большие таблицы (500+ строк) – это структурированные данные, где каждая строка – запись с набором полей (колонок). В…

  • answerКак вы делаете extraction таблиц из PDF для RAG?

    …почему таблицы в PDF сложны для RAG [[Вики/PDF\|PDF]] — это формат представления, а не структурированных данных. Таблицы могут быть…

  • wikiмультимодальные документы

    # мультимодальные документы ## Определение Документы, содержащие текст, таблицы и изображения, требующие специальной обработки (например, извлечения и индексации каждого модальности) для эффективного…

  • wikimixed-modal

    # mixed-modal ## Определение Mixed-modal — подход, при котором система обрабатывает данные разных модальностей (текст, таблицы, изображения) в едином пространстве. ## Где…

  • wikiORDER BY

    # ORDER BY ## Определение Выражение SQL, определяющее ключ сортировки и первичный индекс таблицы в ClickHouse для оптимизации запросов. ## Где встречается - [[253…

  • wikiСтруктурные фичи

    # Структурные фичи ## Определение Извлекаемые признаки документов, такие как заголовки, списки или таблицы. Используются в feature engineering для улучшения релевантности и…

  • answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?

    …if model.config.id2label[label.item()] == "table": # Вырезать область таблицы table_region = image.crop(box.tolist()) # Далее — распознавание структуры таблицы

  • wikiтекстовый RAG

    …Неприменим для мультимодальных данных (изображения, таблицы) без дополнительной обработки, например OCR. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikicost_table_version

    # cost_table_version ## Определение Метрика для отслеживания версии таблицы стоимости токенов при изменении цен, используемая в cost tracking. ## Где встречается…

  • wikiLlamaParse

    # LlamaParse ## Определение Инструмент для извлечения содержимого из сложных PDF-документов, включая таблицы и многостраничные структуры. ## Где встречается - [[41. LangChain vs…

  • wikiSQLTableNodeMapping

    # SQLTableNodeMapping ## Определение Компонент LlamaIndex, отображающий SQL таблицы в узлы графа индекса для текстового поиска. ## Где встречается - [[377. Как вы делаете…

  • wikiUnstructured

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[272…

  • wikileft join

    # left join ## Определение Операция объединения таблиц, при которой сохраняются все записи из левой таблицы, а для отсутствующих соответствий в правой…

  • wikiОбъединённые ячейки

    # Объединённые ячейки ## Определение Ячейки таблицы, объединённые по строкам или столбцам, что требует постобработки при извлечении данных из PDF. ## Где встречается…

  • wikiTable recovery accuracy

    # Table recovery accuracy ## Определение Доля ячеек таблицы, извлечённых с правильным содержимым и порядком, используемая для оценки качества парсинга документов. ## Где…

  • wikiTEDS

    # TEDS ## Определение Метрика для оценки качества извлечения таблиц, измеряющая минимальную стоимость редактирования дерева извлечённой таблицы для приведения к эталонной структуре…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами

    …Цель задачи Разработать RAG-систему, способную обрабатывать документы, содержащие **текст, таблицы и изображения**. Научиться интегрировать CLIP (Contrastive Language-Image Pre…

  • wikiCUDA context

    # CUDA context ## Определение Контекст выполнения CUDA, который содержит состояние драйвера, таблицы страниц и другие ресурсы, необходимые для работы с GPU…

  • wikiTable Extraction Score

    # Table Extraction Score ## Определение F1-мера для оценки качества извлечения ячеек таблицы; порог качества обычно >85%. ## Где встречается - [[527. Как…

  • wikiStructure preservation

    # Structure preservation ## Определение Композитная метрика доли потерянных или искажённых структурных элементов документа (заголовки, списки, таблицы); порог менее 5%. ## Где встречается…

  • wikihybrid approach

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[142…

  • answerЧто такое Layout-Aware Chunking и как он связан с мультимодальностью?

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)\|115]] | Как индексировать изображения и таблицы в RAG | | [[120. Как быть…

  • answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?

    …текст, изображения, таблицы, аудио, видео. В контексте документов это означает, что система индексирует не только текст, но и визуальные элементы…

  • wikiPinecone

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[148…

  • answerКак вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?

    …Ошибка в имени таблицы или синтаксисе запроса делает результат бесполезным. Зачем нужен отдельный подход - поиск|Векторный поиск по сериализованным таблицам…

  • wikidatabase schema

    # database schema ## Определение Структура, определяющая организацию данных в БД или системе памяти (таблицы, индексы, графы знаний). ## Где встречается - [[182. Что…

  • answerКак бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?

    …Использует TableFormer для таблиц и DocLayNet для анализа layout | | Word | `python-docx` | Читает .docx, сохраняет заголовки, списки, таблицы | Библиотека для…

  • wikiPre-filtering

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[123…

  • answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?

    …Почему важно проверять качество парсинга - [[Вики/ошибки\|Ошибки]] парсинга (пропущенные символы, перепутанные колонки, потерянные таблицы) приводят к потере информации. - В…

  • answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?

    …потеря символов, перепутанные колонки, разорванные таблицы, отсутствие заголовков → некорректный [[Вики/chunking\|chunking]] → [[Вики/Failure mode\|падение качества]] [[Вики/retrieval\|retrieval…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать негативные эффекты reranker

    …Анализ и выявление негативных эффектов (1 час) [[Вики/Действия\|Действия]] 1. [[Вики/Построить сводные таблицы\|Построить сводные таблицы]] (pandas pivot…

  • answerКак работает OCR для RAG? Недостатки и когда его недостаточно?

    …он теряет логическую структуру документа (заголовки, таблицы, связи с изображениями) и подвержен ошибкам на сложных шрифтах. Когда эти недостатки критичны…

  • wikicontext window

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[144…

  • wikiвекторный поиск

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[233…

  • answerЧто такое LayoutLMv3 и зачем он для document understanding?

    …класс (счёт, договор, накладная). - Используется [CLS]-токен. ### 5.3 Понимание таблиц - [[Вики/model\|Модель]] может предсказывать структуру таблицы: строки, столбцы…

  • wikiLlamaIndex

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[119…

  • answerКак вы храните историю диалога в RAG для multi-turn QA?

    …Решения: [[Вики/moving average\|sliding window]] (храним последние N сообщений), [[Вики/суммаризация таблицы\|summarization]] (сжимаем историю в [[Вики/суммаризация таблицы

  • wikiHit rate

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[119…

  • wikipdfplumber

    …высокой скоростью и точностью при работе со сложными макетами (таблицы, графики). ## Где встречается - [[82. Как бы вы спроектировали систему для…

  • answerКакие типы задач требуют Level 3 представления (scientific formalization)?

    …Извлекаем параметры из Level 2 (таблицы, JSON) params = self.retriever.retrieve_parameters(query) # 4. Запускаем симуляцию / планировщик result = model.run…

  • answerКак работает memory compression для агентов (long-term memory)?

    …одно [[Вики/суммаризация таблицы\|саммари]] всей истории. - Скользящим окном: [[Вики/суммаризация таблицы\|саммари]] последнего окна, а предыдущие сжаты в иерархию…

  • wikiMRR

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[119…

  • wikiAnswer relevance

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[133…

  • wikiLangChain

    …Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[116…