Поиск
- wikiМногостраничные таблицы
# Многостраничные таблицы ## Определение Таблицы, разбитые на несколько страниц документа, требующие объединения фрагментов по ключу для корректного извлечения данных в RAG…
- wikiсуммаризация таблицы
# суммаризация таблицы ## Определение Метод сжатия больших таблиц или истории диалога через LLM в краткое текстовое описание. Применяется для уменьшения объёма…
- wikirow-based retrieval
# row-based retrieval ## Определение Стратегия извлечения только релевантных строк из большой таблицы, при которой каждая строка индексируется как отдельный чанк…
- wikiTableRetrieverQueryEngine
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] ## Навигация…
- wikiTAPAS
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] ## Навигация…
- wikiStructured table formats
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] ## Навигация…
- answerКак вы обрабатываете большие таблицы в RAG (500+ строк)?
…Большие таблицы в RAG Большие таблицы (500+ строк) – это структурированные данные, где каждая строка – запись с набором полей (колонок). В…
- answerКак вы делаете extraction таблиц из PDF для RAG?
…почему таблицы в PDF сложны для RAG [[Вики/PDF\|PDF]] — это формат представления, а не структурированных данных. Таблицы могут быть…
- wikiмультимодальные документы
# мультимодальные документы ## Определение Документы, содержащие текст, таблицы и изображения, требующие специальной обработки (например, извлечения и индексации каждого модальности) для эффективного…
- wikimixed-modal
# mixed-modal ## Определение Mixed-modal — подход, при котором система обрабатывает данные разных модальностей (текст, таблицы, изображения) в едином пространстве. ## Где…
- wikiORDER BY
# ORDER BY ## Определение Выражение SQL, определяющее ключ сортировки и первичный индекс таблицы в ClickHouse для оптимизации запросов. ## Где встречается - [[253…
- wikiСтруктурные фичи
# Структурные фичи ## Определение Извлекаемые признаки документов, такие как заголовки, списки или таблицы. Используются в feature engineering для улучшения релевантности и…
- answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…if model.config.id2label[label.item()] == "table": # Вырезать область таблицы table_region = image.crop(box.tolist()) # Далее — распознавание структуры таблицы…
- wikiтекстовый RAG
…Неприменим для мультимодальных данных (изображения, таблицы) без дополнительной обработки, например OCR. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikicost_table_version
# cost_table_version ## Определение Метрика для отслеживания версии таблицы стоимости токенов при изменении цен, используемая в cost tracking. ## Где встречается…
- wikiLlamaParse
# LlamaParse ## Определение Инструмент для извлечения содержимого из сложных PDF-документов, включая таблицы и многостраничные структуры. ## Где встречается - [[41. LangChain vs…
- wikiSQLTableNodeMapping
# SQLTableNodeMapping ## Определение Компонент LlamaIndex, отображающий SQL таблицы в узлы графа индекса для текстового поиска. ## Где встречается - [[377. Как вы делаете…
- wikiUnstructured
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[272…
- wikileft join
# left join ## Определение Операция объединения таблиц, при которой сохраняются все записи из левой таблицы, а для отсутствующих соответствий в правой…
- wikiОбъединённые ячейки
# Объединённые ячейки ## Определение Ячейки таблицы, объединённые по строкам или столбцам, что требует постобработки при извлечении данных из PDF. ## Где встречается…
- wikiTable recovery accuracy
# Table recovery accuracy ## Определение Доля ячеек таблицы, извлечённых с правильным содержимым и порядком, используемая для оценки качества парсинга документов. ## Где…
- wikiTEDS
# TEDS ## Определение Метрика для оценки качества извлечения таблиц, измеряющая минимальную стоимость редактирования дерева извлечённой таблицы для приведения к эталонной структуре…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Цель задачи Разработать RAG-систему, способную обрабатывать документы, содержащие **текст, таблицы и изображения**. Научиться интегрировать CLIP (Contrastive Language-Image Pre…
- wikiCUDA context
# CUDA context ## Определение Контекст выполнения CUDA, который содержит состояние драйвера, таблицы страниц и другие ресурсы, необходимые для работы с GPU…
- wikiTable Extraction Score
# Table Extraction Score ## Определение F1-мера для оценки качества извлечения ячеек таблицы; порог качества обычно >85%. ## Где встречается - [[527. Как…
- wikiStructure preservation
# Structure preservation ## Определение Композитная метрика доли потерянных или искажённых структурных элементов документа (заголовки, списки, таблицы); порог менее 5%. ## Где встречается…
- wikihybrid approach
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[142…
- answerЧто такое Layout-Aware Chunking и как он связан с мультимодальностью?
…Как вы обрабатываете большие таблицы в RAG (500+ строк)\|115]] | Как индексировать изображения и таблицы в RAG | | [[120. Как быть…
- answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…текст, изображения, таблицы, аудио, видео. В контексте документов это означает, что система индексирует не только текст, но и визуальные элементы…
- wikiPinecone
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[148…
- answerКак вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
…Ошибка в имени таблицы или синтаксисе запроса делает результат бесполезным. Зачем нужен отдельный подход - поиск|Векторный поиск по сериализованным таблицам…
- wikidatabase schema
# database schema ## Определение Структура, определяющая организацию данных в БД или системе памяти (таблицы, индексы, графы знаний). ## Где встречается - [[182. Что…
- answerКак бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
…Использует TableFormer для таблиц и DocLayNet для анализа layout | | Word | `python-docx` | Читает .docx, сохраняет заголовки, списки, таблицы | Библиотека для…
- wikiPre-filtering
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[123…
- answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?
…Почему важно проверять качество парсинга - [[Вики/ошибки\|Ошибки]] парсинга (пропущенные символы, перепутанные колонки, потерянные таблицы) приводят к потере информации. - В…
- answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?
…потеря символов, перепутанные колонки, разорванные таблицы, отсутствие заголовков → некорректный [[Вики/chunking\|chunking]] → [[Вики/Failure mode\|падение качества]] [[Вики/retrieval\|retrieval…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать негативные эффекты reranker
…Анализ и выявление негативных эффектов (1 час) [[Вики/Действия\|Действия]] 1. [[Вики/Построить сводные таблицы\|Построить сводные таблицы]] (pandas pivot…
- answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…он теряет логическую структуру документа (заголовки, таблицы, связи с изображениями) и подвержен ошибкам на сложных шрифтах. Когда эти недостатки критичны…
- wikicontext window
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[144…
- wikiвекторный поиск
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[233…
- answerЧто такое LayoutLMv3 и зачем он для document understanding?
…класс (счёт, договор, накладная). - Используется [CLS]-токен. ### 5.3 Понимание таблиц - [[Вики/model\|Модель]] может предсказывать структуру таблицы: строки, столбцы…
- wikiLlamaIndex
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[119…
- answerКак вы храните историю диалога в RAG для multi-turn QA?
…Решения: [[Вики/moving average\|sliding window]] (храним последние N сообщений), [[Вики/суммаризация таблицы\|summarization]] (сжимаем историю в [[Вики/суммаризация таблицы…
- wikiHit rate
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[119…
- wikipdfplumber
…высокой скоростью и точностью при работе со сложными макетами (таблицы, графики). ## Где встречается - [[82. Как бы вы спроектировали систему для…
- answerКакие типы задач требуют Level 3 представления (scientific formalization)?
…Извлекаем параметры из Level 2 (таблицы, JSON) params = self.retriever.retrieve_parameters(query) # 4. Запускаем симуляцию / планировщик result = model.run…
- answerКак работает memory compression для агентов (long-term memory)?
…одно [[Вики/суммаризация таблицы\|саммари]] всей истории. - Скользящим окном: [[Вики/суммаризация таблицы\|саммари]] последнего окна, а предыдущие сжаты в иерархию…
- wikiMRR
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[119…
- wikiAnswer relevance
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[133…
- wikiLangChain
…Как вы обрабатываете большие таблицы в RAG (500+ строк)|115. Как вы обрабатываете большие таблицы в RAG (500+ строк)]] - [[116…