Как избежать benchmark contamination (когда модель видела тестовые данные)?

Q: 1. Термин: Benchmark Contamination

В контексте [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/утечка данных\|contamination]] может проявиться не только на уровне [[Вики/GPT-4o\|LLM]], но и в ретривере, если [[Вики/Calibration queries\|тестовые запросы]] или чанки документов повторялись в процессе индексации. ---

Q: 2. Почему это критическая проблема

- Завышение метрик [[Вики/model\|модель]] может показывать 90% [[Вики/accuracy\|accuracy]] на тесте, а в реальном использовании — 60%. Это вводит в заблуждение и разработчиков, и исследователей. - Отсутствие генерализации [[Вики/model\|модель]] не учится решать задачу, а просто воспроизводит заученные паттерны. Особенно опасно для safety-critical областей (медицина, финансы).

Q: 3. Detection методов

Для обнаружения [[Вики/утечка данных\|contamination]] используют три основные группы методов.

Q: 3.2 Perplexity anomaly (аномально низкая perplexity)

**[[Вики/Perplexity\|Perplexity]]** — метрика, показывающая, насколько [[Вики/model\|модель]] «удивлена» текстом. Чем ниже [[Вики/Perplexity\|perplexity]], тем более вероятным [[Вики/model\|модель]] считает этот текст. Если на тестовом примере [[Вики/Perplexity\|perplexity]] аномально низкая по сравнению с похожими примерами из распределения, это может указывать на то, что [[Вики/model\|модель]] уже видела этот текст.

Q: 3.3 Membership inference attack (атака на определение членства)

Это более продвинутый метод: строится [[Вики/Binary classifier\|бинарный классификатор]] (often это сама же [[Вики/model\|модель]] или отдельная «атакующая» [[Вики/model\|модель]]), который предсказывает, входил ли данный пример в обучающую выборку. Обычно используется разница между [[Вики/Loss\|loss]]'ом на примере и средним [[Вики/Loss\|loss]]'ом по корпусу.

Q: 4.1 Holdout чистого датасета (полностью не публикуемый)

Создаётся приватный [[Вики/eval set\|тестовый набор]], который никогда не публикуется в открытом доступе и не включается в обучающие корпуса. Этот набор известен только организаторам тестирования. Примеры: **[[Вики/helm\|HELM]]** (статические наборы с ограниченным доступом), BigBench (часть задач скрыта).

Краткий тезис

Benchmark contamination — это ситуация, когда модель при обучении или fine-tuning'е видела примеры, идентичные или очень похожие на те, что используются для оценки её производительности в тестовом наборе. Это приводит к завышенным метрикам и потере доверия к результатам. Избежать этой проблемы можно комбинацией методов детекции (n-gram overlap, аномалии perplexity, membership inference), превентивных мер (holdout датасеты, benchmarks|динамические бенчмарки, canary examples) и постфактум коррекции (исключение скомпрометированных примеров). В контексте LLM и RAG-систем вопрос особенно актуален, так как модели обучаются на огромных объёмах данных, а тестовые бенчмарки могут пересекаться с тренировочными корпусами.

1. Термин: Benchmark Contamination

Benchmark contamination (также известная как data leakage или data contamination) — это непреднамеренное включение тестовых данных в обучающую выборку модели. В результате модель «запоминает» ответы, а не обобщает закономерности. Это ведёт к нереалистично высоким показателям на стандартных тестах (MMLU, HumanEval, GSM8K и др.) и к ложному ощущению прогресса.

В контексте Agentic RAG contamination может проявиться не только на уровне LLM, но и в ретривере, если тестовые запросы или чанки документов повторялись в процессе индексации.

2. Почему это критическая проблема

Завышение метрик модель может показывать 90% accuracy на тесте, а в реальном использовании — 60%. Это вводит в заблуждение и разработчиков, и исследователей.
Отсутствие генерализации модель не учится решать задачу, а просто воспроизводит заученные паттерны. Особенно опасно для safety-critical областей (медицина, финансы).
Плохая воспроизводимость разные команды могут получить разные оценки contamination, и сравнение моделей становится бессмысленным.
Ресурсные затраты искажённые метрики могут привести к неправильному выбору архитектуры или hyperparameter'ов.

3. Detection методов

Для обнаружения contamination используют три основные группы методов.

3.1 N-gram overlap (пересечение n-грамм)

Самый простой способ — вычислить долю n-грамм (последовательностей из n токенов) тестового примера, которые встречаются в обучающих данных. Если эта доля превышает порог (например, >50%), пример считается подозрительным.

Порог n-gram overlap	Интерпретация
<10%	Нормально
10–50%	Осторожно
>50%	Почти наверняка contamination

Пример: Тестовый вопрос «What is the capital of France?» — если в тренировочном корпусе есть точное совпадение, это contamination.

Реализация на Python (упрощённо):

from collections import Counter

def compute_ngram_overlap(test_example, train_docs, n=10):
    # Разбиваем тестовый пример на n-граммы
    test_ngrams = {test_example[i:i+n] for i in range(len(test_example)-n+1)}
    train_ngrams = set()
    for doc in train_docs:
        train_ngrams.update(doc[i:i+n] for i in range(len(doc)-n+1))
    overlap = len(test_ngrams & train_ngrams) / len(test_ngrams) if test_ngrams else 0
    return overlap

Недостаток: не учитывает paraphrasing (перефразирование) — модель может запомнить не точную строку, а смысл.

3.2 Perplexity anomaly (аномально низкая perplexity)

Perplexity — метрика, показывающая, насколько модель «удивлена» текстом. Чем ниже perplexity, тем более вероятным модель считает этот текст. Если на тестовом примере perplexity аномально низкая по сравнению с похожими примерами из распределения, это может указывать на то, что модель уже видела этот текст.

Алгоритм

Посчитать perplexity для всех тестовых примеров.
Посчитать perplexity для контрольной группы (сгенерированных или внешних примеров).
Если perplexity тестового примера значительно ниже, чем у контроля, — признак contamination.

import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("model_name")
tokenizer = AutoTokenizer.from_pretrained("model_name")

def perplexity(text):
    inputs = tokenizer(text, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs, labels=inputs["input_ids"])
        loss = outputs.loss
    return torch.exp(loss).item()

test_ppl = perplexity("What is the capital of France?")
# Сравнить со средним по другим вопросам

Недостатки: требует forward pass для каждого примера, чувствителен к длине текста.

3.3 Membership inference attack (атака на определение членства)

Это более продвинутый метод: строится бинарный классификатор (often это сама же модель или отдельная «атакующая» модель), который предсказывает, входил ли данный пример в обучающую выборку. Обычно используется разница между loss'ом на примере и средним loss'ом по корпусу.

Формула membership score = loss(example) - average_loss(training_distribution). Если score значительно ниже нуля — пример, скорее всего, был в обучении.

Метод часто используется в сообществе дифференциальной приватности.

4. Prevention (предотвращение)

4.1 Holdout чистого датасета (полностью не публикуемый)

Создаётся приватный тестовый набор, который никогда не публикуется в открытом доступе и не включается в обучающие корпуса. Этот набор известен только организаторам тестирования. Примеры: HELM (статические наборы с ограниченным доступом), BigBench (часть задач скрыта).

4.2 Dynamic benchmarks (меняющиеся со временем)

Бенчмарки, которые генерируют новые примеры каждый раз или регулярно обновляются. Например:

LiveBench — вопросы берутся из свежих новостей, данных и т.д.
Chatbot Arena — краудсорсинговое голосование, где модели оцениваются на новых запросах пользователей.
Agentic RAG-specific можно динамически заменять документы в корпусе, чтобы модель не могла выучить конкретные пары «запрос — чанк».

4.3 Canary examples (канареечные примеры)

В обучающие данные добавляются специальные, искусственно созданные примеры (канарейки), которых нет в природе. Если эти примеры появляются в тестовом наборе — это явный признак утечки. Например, можно вставить строку «CANARY: 42-abc-def» в начало некоторого документа. Если модель когда-либо генерирует эту строку (или она находится в её обучении), можно обнаружить контаминацию.

5. Solution (постфактум коррекция)

Если contamination уже обнаружена, стандартный подход — исключить скомпрометированные примеры из бенчмарка. Остальные результаты пересчитываются без них. Важно задокументировать, какие примеры были удалены и почему.

Дополнительные меры:

Дедупликация обучающих данных на уровне строк (exact match) путём сравнения с тестовым набором перед обучением.
Data provenance — отслеживание источника каждого документа. Если документ мог попасть в сеть до даты сбора тестового набора — его следует исключить.
Двухуровневое тестирование сначала offline метрики на зашумлённых публичных бенчмарках, затем online A/B тесты на живых пользователях.

6. Конкретные инструменты и практики

Инструмент / Метод	Описание
OpenAI GPT-4 paper	Применили n-gram дедупликацию с порогом 8-грамм.
Pythia от EleutherAI	Использовали holdout датасет (не публикуемый).
DataComp	Фильтрация по overlap с тестовыми наборами перед обучением.
BigCode (Starcoder)	Удаляли дубликаты из обучающего корпуса с помощью MinHash и скользящих окон.
WIMBD (What’s In My Big Data)	Инструмент для поиска точных совпадений и подсчёта overlap.

7. Особенности для Agentic RAG

В Agentic RAG contamination может быть связана не только с обучением LLM, но и с индексацией документов:

Если тестовые запросы входят в обучающую выборку для ретривера (например, при fine-tuning bi-encoder), это contamination.
Если документы, которые используются в тестовом корпусе, были доступны модели при обучении, это тоже contamination (модель может запомнить факты).
Динамическая природа Agentic RAG (многократные вызовы, перепланирование) усложняет детекцию: нужно проверять каждый взаимодействие, а не единичный prompt.

Рекомендация: для Agentic RAG используйте canary examples внутри индексированных документов — добавьте «невидимые» токены в тестовые документы. Если модель при вызове генерирует их — значит, она «видела» эти документы.

8. Пет-проект для закрепления

Задача Разработать систему детекции contamination для собственной fine-tuned LLM.

Инструменты Python, Hugging Face Transformers, datasets, numpy, matplotlib.

Шаги:

Взять предобученную модель (например, GPT-2 или Llama-2-7B) и дообучить на небольшом корпусе (wiki + несколько случайных статей).
Подготовить тестовый набор из 50 вопросов, из которых ровно 10 будут полностью совпадать с фрагментами обучающих данных.
Реализовать два метода детекции:
- n-gram overlap (8-граммы) — порог 50%.
- per token perplexity (используйте model.forward для оценки loss).
Оценить recall и precision каждого метода.
Построить confusion matrix.

Ожидаемый результат Вы увидите, что n-gram overlap хорошо ловит точные совпадения, но пропускает перефразировки. Perplexity anomaly тоже работает, но требует калибровки порога.

Дополнительно Сравните статический и динамический бенчмарк (например, LiveBench API) — сколько примеров contamination обнаружится.

9. Связь с другими вопросами

Вопрос	Тема
860	Как оценивать качество Agentic RAG системы?
861	Overfitting и обобщение в RAG
866	Как выбрать тестовые данные для RAG?
867	Что такое data leakage в контексте RAG?
870	Прокси-метрики для оценки генерации (например, Factuality)
871	Как детектить галлюцинации в RAG?

10. Навигация

Предыдущий: 868
Следующий: 870
Индекс: 00. Индекс разборов