Как вы делаете incremental ingestion для часто меняющихся документов?

Q: 1. Термин: Incremental ingestion (инкрементальная загрузка)

Что это Процесс обновления поискового индекса (векторной БД) только для изменившихся документов, вместо полной переиндексации всего корпуса. Зачем нужна - Скорость [[Вики/full re-indexing\|полная переиндексация]] 10⁶ документов может занимать часы, инкрементальная — секунды. - Ресурсы экономия вычислительных мощностей (CPU/GPU для эмбеддингов, IO для БД).

Q: 2. CDC (Change Data Capture) — источник изменений

Типы источников и CDC-инструменты | Источник | Инструмент CDC | Формат события | |----------|----------------|----------------| | Реляционная БД (PostgreSQL, MySQL) | [[Вики/Debezium\|Debezium]] (Kafka Connect) | Debezium → JSON с before/after | | Файловое хранилище (S3, GCS) | [[Вики/S3 events\|S3 Events]], Object Storage Notifications | Событие о создании/удалении объекта |

Q: 3. Pipeline: Kafka как шина событий

Архитектура Источник (БД) → Debezium → Kafka Topic (documents-changes) → Consumer (Ingestion Worker) → Векторная БД Преимущества [[Вики/Kafka\|Kafka]] - [[Вики/at-least-once semantics\|At-least-once delivery]] — гарантия, что каждое изменение будет обработано (с возможными дубликатами, которые нужно идемпотентно обрабатывать).

Q: 4. Обработка изменений: удаление старых чанков и создание новых

Проблема при обновлении документа старые чанки становятся неактуальными. Если их не удалить, [[Вики/retrieval\|retrieval]] может вернуть устаревшую информацию. Алгоритм для операции UPDATE 1. Получить `[[Вики/Source ID\|source_id]]` ([[Вики/UUID\|уникальный идентификатор]] документа).

Q: 5. Транзакционность (атомарность обновления)

Транзакционность — гарантия, что группа операций (удаление + вставка) выполняется как единое целое: либо все успешно, либо [[Вики/fallback model\|откат]] к исходному состоянию. Подходы | Подход | Описание | Плюсы | Минусы | |--------|----------|-------|--------| | Транзакция БД | Использовать ACID-транзакции векторной БД (если поддерживает) | Простота, атомарность | Не все векторные БД поддерживают (например, Pinecone не поддерживает транзакции) |

Q: 6. Versioning (версионирование) и TTL

Зачем - [[Вики/retrieval\|Retrieval]] только актуальных при поиске можно фильтровать по `version <= current_version` или `[[Вики/Recency\|timestamp]] < [[Вики/TTL\|TTL]]`. - [[Вики/rollback\|Откат]] при ошибке можно восстановить предыдущую версию. - [[Вики/Audit logging\|Аудит]] отслеживание истории изменений.

Q: 7. Latency (задержка) — цель <5 секунд

Краткий тезис

ingestion|Incremental ingestion (ingestion|инкрементальная загрузка) для часто меняющихся документов строится на CDC (Change Data Capture) — захвате изменений из источника (база данных, файловое хранилище, очередь событий). Изменения передаются через Kafka (или аналогичную шину), consumer обрабатывает каждое событие: удаляет старые чанки документа, создаёт новые, пересчитывает эмбеддинги и атомарно обновляет векторную БД. Критичны транзакционность, версионирование и latency|низкая задержка (цель — <5 секунд от изменения до доступности в поиске).

1. Термин: Incremental ingestion (инкрементальная загрузка)

Что это Процесс обновления поискового индекса (векторной БД) только для изменившихся документов, вместо полной переиндексации всего корпуса.

Зачем нужна

Скорость полная переиндексация 10⁶ документов может занимать часы, инкрементальная — секунды.
Ресурсы экономия вычислительных мощностей (CPU/GPU для эмбеддингов, IO для БД).
Актуальность пользователь получает свежие данные без задержек на полный ребилд.

Противоположность batch ingestion (ingestion|пакетная загрузка) — периодический полный пересчёт всех документов (например, раз в сутки). Для часто меняющихся данных (финансовые котировки, новости, логи) batch неприемлем.

2. CDC (Change Data Capture) — источник изменений

CDC — механизм, который отслеживает изменения в источнике данных (INSERT, UPDATE, DELETE) и публикует их как события.

Типы источников и CDC-инструменты

Источник	Инструмент CDC	Формат события
Реляционная БД (PostgreSQL, MySQL)	Debezium (Kafka Connect)	Debezium → JSON с before/after
Файловое хранилище (S3, GCS)	S3 Events, Object Storage Notifications	Событие о создании/удалении объекта
NoSQL (MongoDB)	MongoDB Change Streams, Debezium	Операция (insert/update/replace/delete)
API (REST, GraphQL)	Polling + diff, Webhooks	Периодический опрос или push-уведомления

Пример конфигурации Debezium для PostgreSQL

{
  "name": "inventory-connector",
  "config": {
    "connector.class": "io.debezium.connector.postgresql.PostgresConnector",
    "database.hostname": "postgres",
    "database.port": "5432",
    "database.user": "debezium",
    "database.password": "dbz",
    "database.dbname": "inventory",
    "database.server.name": "dbserver1",
    "table.include.list": "public.documents",
    "plugin.name": "pgoutput",
    "transforms": "unwrap",
    "transforms.unwrap.type": "io.debezium.transforms.ExtractNewRecordState"
  }
}

Ключевое CDC даёт логи репликации — поток изменений в реальном времени.

3. Pipeline: Kafka как шина событий

Kafka — распределённая платформа потоковой передачи событий. В контексте incremental ingestion выполняет роль буфера и транспортного слоя.

Архитектура

Источник (БД) → Debezium → Kafka Topic (documents-changes) → Consumer (Ingestion Worker) → Векторная БД

Преимущества Kafka

At-least-once delivery — гарантия, что каждое изменение будет обработано (с возможными дубликатами, которые нужно идемпотентно обрабатывать).
Партиционирование — можно распределить нагрузку по ключу документа (source_id).
Retention — хранить историю изменений для отладки и повторной обработки.

Consumer (на Python с использованием aiokafka):

import asyncio
from aiokafka import AIOKafkaConsumer
from vector_db import VectorDB  # условный клиент
from chunker import chunk_document
from embedder import embed_chunks

async def process_change(event):
    source_id = event['after']['id']
    new_text = event['after']['content']
    operation = event['op']  # 'c' (create), 'u' (update), 'd' (delete)

    if operation == 'd':
        # Удалить все чанки документа
        await VectorDB.delete_chunks_by_source_id(source_id)
        return

    # Для 'c' и 'u': удалить старые чанки, создать новые
    await VectorDB.delete_chunks_by_source_id(source_id)
    chunks = chunk_document(new_text)
    embeddings = await embed_chunks(chunks)
    await VectorDB.insert_chunks(source_id, chunks, embeddings)

async def main():
    consumer = AIOKafkaConsumer(
        'documents-changes',
        bootstrap_servers='kafka:9092',
        group_id='ingestion-group',
        value_deserializer=lambda m: json.loads(m.decode('utf-8'))
    )
    await consumer.start()
    try:
        async for msg in consumer:
            await process_change(msg.value)
    finally:
        await consumer.stop()

4. Обработка изменений: удаление старых чанков и создание новых

Проблема при обновлении документа старые чанки становятся неактуальными. Если их не удалить, retrieval может вернуть устаревшую информацию.

Алгоритм для операции UPDATE

Получить source_id (уникальный идентификатор документа).
Удалить все чанки с этим source_id из векторной БД.
Разбить новый текст на чанки (используя ту же стратегию chunking, что и при первичной индексации).
Сгенерировать эмбеддинги для каждого чанка.
Вставить новые чанки с тем же source_id и новым version (см. раздел 6).

Важно операция должна быть атомарной — либо все чанки обновлены, либо ни один. Иначе возможна ситуация, когда часть старых чанков удалена, а новые ещё не вставлены → временная потеря данных.

5. Транзакционность (атомарность обновления)

Транзакционность — гарантия, что группа операций (удаление + вставка) выполняется как единое целое: либо все успешно, либо откат к исходному состоянию.

Подходы

Подход	Описание	Плюсы	Минусы
Транзакция БД	Использовать ACID-транзакции векторной БД (если поддерживает)	Простота, атомарность	Не все векторные БД поддерживают (например, Pinecone не поддерживает транзакции)
Двухфазный коммит (2PC)	Координатор управляет prepare/commit на нескольких хранилищах	Гарантия согласованности	Сложность, задержки
Идемпотентность + компенсация	Consumer идемпотентен (повторная обработка не вредит); при сбое — повтор	Простота, масштабируемость	Временная несогласованность
Outbox pattern	Сначала пишем событие в outbox-таблицу в той же БД, что и источник, затем CDC его подхватывает	Сильная согласованность	Дополнительная запись

Рекомендация для большинства RAG-систем достаточно идентификации по source_id + версионирование. Если векторная БД поддерживает транзакции (например, Qdrant, Weaviate), используйте их. Если нет — применяйте idempotent consumer с повторной обработкой.

Пример транзакции в Qdrant (Python):

from qdrant_client import QdrantClient
from qdrant_client.http import models

client = QdrantClient("localhost", port=6333)

# Начинаем транзакцию (Qdrant поддерживает точку сохранения)
with client.transaction():
    # Удаляем старые точки по фильтру source_id
    client.delete(
        collection_name="documents",
        points_selector=models.Filter(
            must=[models.FieldCondition(key="source_id", match=models.MatchValue(value=source_id))]
        )
    )
    # Вставляем новые точки
    client.upsert(
        collection_name="documents",
        points=[models.PointStruct(id=chunk_id, vector=embedding, payload=payload) for ...]
    )

6. Versioning (версионирование) и TTL

Versioning — хранение метаданных о версии документа (timestamp, номер версии) в payload каждого чанка.

Зачем

Retrieval только актуальных при поиске можно фильтровать по version <= current_version или timestamp < TTL.
Откат при ошибке можно восстановить предыдущую версию.
Аудит отслеживание истории изменений.

Реализация

В payload чанка добавляем поля: source_id, version, updated_at.
При retrieval добавляем фильтр: updated_at >= now - TTL или version = latest_version.
TTL (Time-To-Live) — максимальное время, в течение которого чанк считается актуальным. Если документ не обновлялся дольше TTL, он исключается из поиска (или помечается как устаревший).

Пример payload

{
  "source_id": "doc_123",
  "version": 5,
  "updated_at": "2025-03-15T10:30:00Z",
  "chunk_index": 2
}

Фильтр при retrieval (Qdrant):

client.search(
    collection_name="documents",
    query_vector=query_emb,
    query_filter=models.Filter(
        must=[
            models.FieldCondition(key="updated_at", range=models.Range(gte=datetime.utcnow() - timedelta(days=7)))
        ]
    )
)

7. Latency (задержка) — цель <5 секунд

Latency — время от момента изменения в источнике до момента, когда новый чанк становится доступен для поиска.

Компоненты задержки

CDC capture (Debezium → Kafka): обычно <100 мс.
Kafka propagation (topic → consumer): <10 мс.
Consumer processing (chunking + embedding + DB write): основная часть.

Как достичь <5 секунд

Параллельная обработка несколько consumer'ов в группе, каждый обрабатывает свой partition.
Асинхронный I/O использовать asyncio (как в примере выше).
Кэширование эмбеддингов если документ меняется незначительно, можно переиспользовать эмбеддинги старых чанков (но осторожно — риск устаревания).
Batch-вставка накапливать несколько чанков и вставлять пачкой.
Выбор быстрой векторной БД Qdrant (Rust) или Milvus (C++) быстрее, чем Pinecone (облачный) для write-heavy сценариев.

Мониторинг: метрики (latency p50/p99, throughput, error rate) через Prometheus + Grafana.

8. Проблемы и решения

Проблема	Описание	Решение
Дубликаты событий	Kafka at-least-once → одно изменение может быть обработано дважды	Идемпотентность: удаление по source_id перед вставкой (если операция идемпотентна)
Частичное обновление	Сбой после удаления, но до вставки	Использовать транзакции или компенсацию (повторная обработка)
Изменение схемы документа	Добавление/удаление полей	Версионирование схемы; consumer должен уметь обрабатывать разные версии
Большие документы	Chunking может быть медленным	Асинхронный chunking, предварительная обработка
Удаление документа	Нужно удалить все чанки	CDC-событие DELETE → consumer удаляет по source_id
Out-of-order events	События приходят не в хронологическом порядке (например, UPDATE после DELETE)	Использовать версионирование: игнорировать события с версией <= текущей

9. Инструменты и альтернативы

Инструмент	Роль	Когда использовать
Debezium + Kafka	CDC + шина	Стандартный выбор для реляционных БД
AWS DMS (Database Migration Service)	CDC для AWS RDS	Если всё в AWS
Apache Flink	Stream processing	Если нужна сложная логика (окна, агрегации)
dlt (data load tool)	ELT для инкрементальной загрузки	Если источник — API или файлы, и нужен простой Python-пайплайн
Airbyte	CDC + ELT	Если много разных источников
Kafka Connect + S3 Sink	CDC → S3 → batch ingestion	Если инкрементальная загрузка не критична по времени

10. Пет-проект для закрепления

Задача Реализовать инкрементальную загрузку для блога на Django (PostgreSQL). При создании/редактировании/удалении поста — обновлять векторный индекс (Qdrant) в реальном времени.

Инструменты

PostgreSQL + Debezium (через Docker Compose)
Kafka (один брокер)
Python consumer (aiokafka, sentence-transformers, qdrant-client)
Qdrant (векторная БД)
Streamlit (UI для демонстрации)

Шаги:

Развернуть PostgreSQL, Kafka, Debezium, Qdrant через Docker Compose.
Создать таблицу posts (id, title, content, updated_at).
Настроить Debezium connector для таблицы posts.
Написать consumer, который:
- Получает событие из Kafka.
- Для INSERT/UPDATE: удаляет старые чанки по source_id=post.id, разбивает title + content на чанки (по 512 токенов), генерирует эмбеддинги (all-MiniLM-L6-v2), вставляет в Qdrant.
- Для DELETE: удаляет все чанки по source_id.
Добавить версионирование: хранить updated_at в payload, при retrieval фильтровать по updated_at > now - 1 day.
Написать Streamlit-приложение, которое показывает текущие посты и позволяет искать по ним (через Qdrant).

Ожидаемый результат

При добавлении поста через Django admin — через <2 секунды он становится доступен для поиска.
При редактировании — старые чанки заменяются новыми.
При удалении — чанки исчезают из поиска.

11. Связь с другими вопросами

Вопрос	Тема
9	Как вы обновляете документы в существующей RAG-системе?
7	Как вы уменьшаете latency RAG-системы (время ответа)?
3	Какие стратегии chunking'а вы знаете и когда какую применяете?
4	Как вы выбираете модель эмбеддингов для RAG?
6	Как вы выбираете векторную БД для RAG?
10	Что такое Self-RAG и когда его использовать?

12. Навигация

Предыдущий: 520
Следующий: 522
Индекс: 00. Индекс разборов