Как вы делаете data quality monitoring для RAG корпуса?

Q: 2.1 Проверка на null-значения в обязательных полях

Q: 2.2 Проверка языка документа

Что это Определение языка текста и [[Вики/Check\|проверка]], что он соответствует ожидаемому (например, русский или английский). Зачем - Если в корпус попадёт документ на неожиданном языке, [[Вики/retrieval\|retrieval]] может найти его по неверному запросу. - [[Вики/LLM\|LLM]] может сгенерировать ответ на смешанном языке.

Q: 2.3 Проверка min/max длины текста

Что это [[Вики/Check\|Проверка]], что [[Вики/Document length\|длина документа]] (в символах или токенах) находится в заданном диапазоне. Зачем - Слишком короткие документы (например, ` 10000 токенов`) могут превышать лимит контекста [[Вики/LLM\|LLM]] и ухудшать качество [[Вики/retrieval\|retrieval]].

Q: 2.4 Проверка на дубликаты

Что это [[Вики/retrieval\|Поиск]] и удаление документов с одинаковым или почти одинаковым содержимым. Зачем - Дубликаты искажают [[Вики/retrieval\|retrieval]]: один и тот же документ может быть найден несколько раз, занимая место в контексте. - Дубликаты увеличивают размер корпуса и замедляют [[Вики/retrieval\|поиск]].

Q: 2.5 PII detection (детекция персональных данных)

Что это Выявление и [[Вики/Scrubbing\|маскирование]] или [[Вики/Scrubbing\|удаление персональных данных]] ([[Вики/PII\|PII]]) из документов перед индексацией. Зачем - Юридические требования ([[Вики/GDPR\|GDPR]], 152-ФЗ). - [[Вики/Safetysecurity\|Безопасность]]: [[Вики/GPT-4o\|LLM]] не должна генерировать ответы, содержащие [[Вики/PII\|PII]].

Q: 3.1 Great Expectations

**Что это:** Open-source библиотека для валидации данных. Позволяет определять expectations (ожидания) и проверять данные на [[Вики/accuracy\|соответствие]]. Особенности - Поддержка [[Вики/pandas\|pandas]], [[Вики/Spark\|Spark]], [[Вики/SQL\|SQL]]. - [[Вики/generation\|Генерация]] отчётов в [[Вики/HTML\|HTML]].

Краткий тезис

Quality Quality Quality|Data quality monitoring для RAG корпуса — это непрерывный процесс проверки документов на соответствие заданным стандартам до индексации и после неё. Основные проверки включают: отсутствие null-значений в обязательных полях, контроль длины текста, детекцию дубликатов, проверку языка и выявление персональных данных (PII). Инструменты вроде Great Expectations и Deequ автоматизируют эти проверки, а интеграция с CI/CD позволяет блокировать загрузку некачественных данных.

1. Термин: Data Quality (качество данных)

Что это Совокупность характеристик данных, определяющих их пригодность для использования. Для RAG это означает, что документы в корпусе должны быть полными, непротиворечивыми, актуальными и безопасными.

Почему это важно для RAG

Мусор на входе → мусор на выходе: если в корпусе есть битые, дублирующиеся или нерелевантные документы, retrieval найдёт их, и LLM сгенерирует плохой ответ.
Плохое качество данных подрывает доверие пользователей к системе.
Quality Quality Quality|Data quality monitoring — это проактивная защита, а не реактивное исправление ошибок.

Термин «Корпус» (corpus) — это вся совокупность документов, которые индексируются и используются для поиска в RAG-системе.

2. Основные проверки data quality для RAG корпуса

2.1 Проверка на null-значения в обязательных полях

Что это Проверка, что каждое поле, необходимое для работы RAG (например, id, text, source, metadata), не пустое.

Пример:

# Псевдокод проверки с Great Expectations
import great_expectations as ge

df = ge.read_csv("documents.csv")
df.expect_column_values_to_not_be_null("text")
df.expect_column_values_to_not_be_null("id")

Поле	Почему важно	Что делать при ошибке
`id`	Уникальная идентификация документа	Отклонить документ
`text`	Основной контент для retrieval	Отклонить документ
`source`	Отслеживание происхождения	Установить значение по умолчанию
`metadata`	Фильтрация и контекст	Установить пустой словарь

2.2 Проверка языка документа

Что это Определение языка текста и проверка, что он соответствует ожидаемому (например, русский или английский).

Зачем

Если в корпус попадёт документ на неожиданном языке, retrieval может найти его по неверному запросу.
LLM может сгенерировать ответ на смешанном языке.

Инструменты langdetect, fasttext, spacy.

Пример:

from langdetect import detect

def check_language(text, expected_lang="ru"):
    try:
        detected_lang = detect(text)
        return detected_lang == expected_lang
    except:
        return False

2.3 Проверка min/max длины текста

Что это Проверка, что длина документа (в символах или токенах) находится в заданном диапазоне.

Зачем

Слишком короткие документы (например, < 10 символов) не несут полезной информации.
Слишком длинные документы (например, > 10000 токенов) могут превышать лимит контекста LLM и ухудшать качество retrieval.

Пример:

MIN_LENGTH = 50   # символов
MAX_LENGTH = 5000 # символов

def check_length(text):
    length = len(text)
    return MIN_LENGTH <= length <= MAX_LENGTH

Диапазон	Действие
`< MIN_LENGTH`	Отклонить или объединить с соседними документами
`> MAX_LENGTH`	Разделить на чанки или отклонить
В пределах нормы	Пропустить

2.4 Проверка на дубликаты

Что это Поиск и удаление документов с одинаковым или почти одинаковым содержимым.

Зачем

Дубликаты искажают retrieval: один и тот же документ может быть найден несколько раз, занимая место в контексте.
Дубликаты увеличивают размер корпуса и замедляют поиск.

Методы

Exact dedup сравнение хэшей (MD5, SHA256) полного текста.
Fuzzy dedup использование MinHash или SimHash для поиска похожих документов.

Пример:

import hashlib

def exact_dedup(texts):
    seen = set()
    unique = []
    for text in texts:
        hash_val = hashlib.md5(text.encode()).hexdigest()
        if hash_val not in seen:
            seen.add(hash_val)
            unique.append(text)
    return unique

2.5 PII detection (детекция персональных данных)

Что это Выявление и маскирование или удаление персональных данных (PII) из документов перед индексацией.

Зачем

Юридические требования (GDPR, 152-ФЗ).
Безопасность: LLM не должна генерировать ответы, содержащие PII.

Типы PII

Имена, фамилии
Номера телефонов
Email-адреса
Паспортные данные
Номера кредитных карт
IP-адреса

Инструменты presidio, spaCy, регулярные выражения.

Пример:

from presidio_analyzer import AnalyzerEngine

analyzer = AnalyzerEngine()

def check_pii(text):
    results = analyzer.analyze(text=text, language="ru")
    return len(results) > 0  # True, если найдены PII

Действие при обнаружении PII	Описание
Отклонить документ	Безопасно, но может потерять полезные данные
Маскировать PII	Заменить на `[REDACTED]`
Удалить PII	Удалить фрагменты с PII

3. Инструменты для data quality monitoring

3.1 Great Expectations

Что это: Open-source библиотека для валидации данных. Позволяет определять expectations (ожидания) и проверять данные на соответствие.

Особенности

Поддержка pandas, Spark, SQL.
Генерация отчётов в HTML.
Интеграция с CI/CD.

Пример expectations для RAG корпуса

import great_expectations as ge

# Загрузка данных
df = ge.read_csv("documents.csv")

# Определение expectations
df.expect_column_values_to_not_be_null("text")
df.expect_column_values_to_be_between("text_length", min_value=50, max_value=5000)
df.expect_column_values_to_be_unique("id")
df.expect_column_values_to_match_regex("language", "^ru$|^en$")

# Запуск проверки
results = df.validate()
print(results)

3.2 Deequ

Что это: Библиотека для проверки качества данных в Spark. Разработана Amazon.

Особенности

Масштабируемость на большие датасеты.
Поддержка метрик: completeness, uniqueness, compliance.
Генерация отчётов.

Пример:

from deequ import VerificationSuite, SparkSession
from deequ.checks import Check, CheckLevel

spark = SparkSession.builder.getOrCreate()
df = spark.read.csv("documents.csv", header=True)

check = Check(CheckLevel.Error, "RAG corpus quality check")
check.hasCompleteness("text", lambda x: x >= 0.99)
check.hasUniqueness(["id"], lambda x: x >= 1.0)
check.hasMinLength("text", lambda x: x >= 50)

result = VerificationSuite(spark).onData(df).addCheck(check).run()
result_df = VerificationResult.checkResultsAsDataFrame(spark, result)
result_df.show()

4. Процесс data quality monitoring

4.1 Pre-ingestion checks (до индексации)

Что это Проверки, выполняемые перед добавлением документов в корпус.

Шаги:

Получение нового документа (из парсинга, API, загрузки).
Запуск проверок: null, длина, язык, дубликаты, PII.
Если все проверки пройдены → документ добавляется в корпус.
Если проверка не пройдена → документ отклоняется или отправляется на ручную проверку.

4.2 Post-ingestion checks (после индексации)

Что это Периодические проверки всего корпуса на предмет деградации качества.

Шаги:

Запуск проверок по расписанию (например, раз в день).
Генерация отчёта о качестве данных.
Автоматическое уведомление команды при падении метрик ниже порога.

4.3 CI/CD интеграция

Что это Автоматизация проверок в пайплайне обновления корпуса.

Пример:

При каждом pull request с новыми документами запускается пайплайн с Great Expectations.
Если проверки не пройдены → PR блокируется.
Если проверки пройдены → документы индексируются.

5. Метрики для data quality monitoring

Метрика	Описание	Порог
Completeness	Доля документов без null в обязательных полях	> 0.99
Uniqueness	Доля уникальных документов (по id)	1.0
Language compliance	Доля документов на ожидаемом языке	> 0.95
Length compliance	Доля документов в заданном диапазоне длины	> 0.90
PII rate	Доля документов без PII	1.0

6. Проблемы и решения

Проблема	Решение
False positives (ложные срабатывания PII)	Использовать кастомные правила и whitelist
Изменение формата данных	Версионировать expectations и обновлять их
Большой объём данных	Использовать Deequ (Spark) для распределённой проверки
Отсутствие gold standard	Размечать вручную подвыборку для валидации

Пет-проект для закрепления

Задача Разработать систему data quality monitoring для корпуса из 10 000 документов (например, статьи из Википедии).

Инструменты

Great Expectations (валидация)
Python (скриптинг)
SQLite (хранение результатов)
Streamlit (дашборд)

Шаги:

Собрать корпус документов (например, через API Википедии).
Определить expectations: no null в text, длина от 100 до 5000 символов, язык — русский, уникальность id.
Написать скрипт для запуска проверок.
Сохранять результаты в SQLite.
Создать Streamlit-дашборд для визуализации метрик.

Ожидаемый результат

Работающий пайплайн, который при каждом запуске проверяет корпус и генерирует отчёт.
Дашборд с метриками качества данных.
Возможность блокировать добавление некачественных документов.

Связь с другими вопросами

Вопрос	Тема
5	Оценка качества retrieval
9	Обновление документов в RAG
12	Стратегии chunking
18	Обработка PII в RAG
22	CI/CD для RAG

Как вы делаете data quality monitoring для RAG корпуса?

Краткий тезис

1. Термин: Data Quality (качество данных)

2. Основные проверки data quality для RAG корпуса

2.1 Проверка на null-значения в обязательных полях

2.2 Проверка языка документа

2.3 Проверка min/max длины текста

2.4 Проверка на дубликаты

2.5 PII detection (детекция персональных данных)

3. Инструменты для data quality monitoring

3.1 Great Expectations

3.2 Deequ

4. Процесс data quality monitoring

4.1 Pre-ingestion checks (до индексации)

4.2 Post-ingestion checks (после индексации)

4.3 CI/CD интеграция

5. Метрики для data quality monitoring

6. Проблемы и решения

Пет-проект для закрепления

Связь с другими вопросами

Навигация