Как избежать evaluation overfitting (когда модель учится на тесте)?

Q: 1. Термин: Evaluation Overfitting

Что это Ситуация, когда [[Вики/model\|модель]] (или её настройки) неявно подстраиваются под [[Вики/seed-факты\|тестовые данные]]. В результате показатели на тесте перестают быть объективными, а на новых данных качество падает. Причины - Многократное использование одного тестового набора (например, при поиске гиперпараметров).

Q: 2. Holdout золотого набора (Golden Holdout)

Идея Зафиксировать один небольшой, но репрезентативный [[Вики/eval set\|тестовый набор]], который никогда не используется для валидации или выбора гиперпараметров. Его «вскрывают» только для финальной оценки. Как организовать - Разделить исходные данные на три части: **train** (обучение), **validation** (валидация), **test** (Holdout|золотой holdout).

Q: 3. Случайный порядок и стратификация

Даже при случайном разбиении возможна неосознанная [[Вики/утечка данных\|контаминация]], если данные сгруппированы (например, несколько документов от одного пользователя). - [[Вики/chunking\|Разбиение]] должно быть стратифицированным — сохранять пропорции целевых классов. - Для временных рядов — [[Вики/Stratification\|стратификация]] по времени (train до определённой даты, test после).

Q: 4. Проверка контаминации (n-gram overlap)

Методы обнаружения - [[Вики/n-gram overlap\|n‑gram overlap]] Подсчёт доли уникальных n‑граммов тестового примера, которые есть в обучающей выборке. [[Вики/threshold\|Порог]] — 70–80% совпадения считается подозрительным. - **[[Вики/answer_exact_match\|Exact match]]:** Проверить полное совпадение или substring‑совпадение.

Q: 5. Dynamic evals (динамические оценки)

Идея [[Вики/eval set\|Тестовый набор]] не должен быть статичным. Со временем [[Вики/model\|модель]] может «выучить» его через многочисленные эксперименты. Подходы - [[Вики/secret rotation\|Ротация]] тестовых заданий Периодически (раз в месяц) заменять часть примеров новыми, из того же распределения.

Q: 6. Cross‑validation: не фиксированный test set

Когда полезна - Маленький [[Вики/dataset\|датасет]] (нельзя позволить себе большой [[Вики/Hold-out validation\|holdout]]). - [[Вики/retrieval\|Поиск]] гиперпараметров (можно валидироваться на folds, а тест — внешний [[Вики/Hold-out validation\|holdout]]). Как избежать [[Вики/Overfitting\|overfitting]]

Q: 8. Дополнительные техники и best practices

Краткий тезис

Evaluation overfitting (переобучение на тестовых данных) возникает, когда метрики на оценочном наборе перестают отражать реальное качество модели из-за утечки информации или многократного использования одного теста. Чтобы этого избежать, применяют holdout золотого набора, проверку контаминации данных, динамические оценки, кросс-валидацию и прокси-метрики на реальных задачах. Системный подход включает как технические меры (дедупликация, стратификация), так и организационные (фиксация теста, ротация заданий).

1. Термин: Evaluation Overfitting

Что это Ситуация, когда модель (или её настройки) неявно подстраиваются под тестовые данные. В результате показатели на тесте перестают быть объективными, а на новых данных качество падает.

Причины

Многократное использование одного тестового набора (например, при поиске гиперпараметров).
Контаминация (загрязнение) — часть тестовых примеров случайно попала в обучающую выборку.
Тестовые данные не отражают реальное распределение (например, слишком старые или узкие).

Последствия

Завышенные метрики на тесте, провал в продакшене.
Невозможность сравнить разные версии модели.

Расшифровка Evaluation overfitting — это частный случай data leakage (утечки данных), когда информация из теста просачивается в процесс обучения или выбора модели.

2. Holdout золотого набора (Golden Holdout)

Идея Зафиксировать один небольшой, но репрезентативный тестовый набор, который никогда не используется для валидации или выбора гиперпараметров. Его «вскрывают» только для финальной оценки.

Как организовать

Разделить исходные данные на три части: train (обучение), validation (валидация), test (Holdout|золотой holdout).
Validation используется для настройки модели, test — только один раз.
Размер holdout обычно 5–10% от общего датасета.

Требования

Holdout должен быть репрезентативен (то же распределение классов, временной период).
Данные holdout’а нельзя просматривать, пока модель не готова.

Ограничения Если holdout мал, оценка может быть шумной. Если велик — уменьшается объём обучения.

3. Случайный порядок и стратификация

Даже при случайном разбиении возможна неосознанная контаминация, если данные сгруппированы (например, несколько документов от одного пользователя).

Правила

Разбиение должно быть стратифицированным — сохранять пропорции целевых классов.
Для временных рядов — стратификация по времени (train до определённой даты, test после).
Групповая стратификация (стратификация|group shuffle split) — гарантирует, что все записи одного пользователя/источника попадут только в одну часть.
Случайный порядок также означает, что тестовые данные не должны быть похожи на training по неявным признакам (например, одинаковые шаблоны текста).

Пример кода (Python, sklearn):

from sklearn.model_selection import GroupShuffleSplit

groups = df['user_id']  # пример группировки
gss = GroupShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
train_idx, test_idx = next(gss.split(df, groups=groups))

4. Проверка контаминации (n-gram overlap)

Контаминация — когда часть тестовых примеров (или их фрагменты) встречаются в обучающих данных. Часто встречается при сборе текстов из интернета (например, вопросы из бенчмарков случайно включены в pretrain‑корпус).

Методы обнаружения

n‑gram overlap Подсчёт доли уникальных n‑граммов тестового примера, которые есть в обучающей выборке. Порог — 70–80% совпадения считается подозрительным.
Exact match: Проверить полное совпадение или substring‑совпадение.
Встраивания (embedding similarity) — если эмбеддинги тестового примера слишком близки к обучающему.

Инструменты Для NLP‑задач используют утилиты (например, datasets от Hugging Face с функцией cleanup или специализированные скрипты).

Пример простой проверки на Python

from collections import Counter

def ngram_overlap(train_texts, test_text, n=8):
    train_ngrams = set()
    for txt in train_texts:
        for i in range(len(txt) - n + 1):
            train_ngrams.add(txt[i:i+n])
    test_ngrams = [test_text[i:i+n] for i in range(len(test_text) - n + 1)]
    overlap = sum(1 for ng in test_ngrams if ng in train_ngrams)
    return overlap / len(test_ngrams) if test_ngrams else 0

Действия при обнаружении

Удалить контаминированные примеры из теста.
Переобучить модель без этих данных.
Для публичных бенчмарков участвовать в соревнованиях слепым образом (без доступа к лейблам теста).

5. Dynamic evals (динамические оценки)

Идея Тестовый набор не должен быть статичным. Со временем модель может «выучить» его через многочисленные эксперименты.

Подходы

Ротация тестовых заданий Периодически (раз в месяц) заменять часть примеров новыми, из того же распределения.
Аугментация теста Добавлять новые варианты входов (синонимы, перефразирования) без изменения целевых меток.
Живой мониторинг В дополнение к статическому тесту использовать метрики на реальном пользовательском трафике (онлайн‑A/B тесты).

Преимущества Снижает риск неявного подстраивания под фиксированные данные.

Недостаток Требует дополнительного процесса сбора и аннотации данных.

6. Cross‑validation: не фиксированный test set

Кросс‑валидация (k‑fold) позволяет оценивать модель на нескольких разбиениях, а не на одном тесте. Это уменьшает зависимость от случайного разбиения и обнаруживает переобучение.

Когда полезна

Маленький датасет (нельзя позволить себе большой holdout).
Поиск гиперпараметров (можно валидироваться на folds, а тест — внешний holdout).

Как избежать overfitting

Внешний цикл кросс-валидации (nested cross‑validation) — гиперпараметры настраиваются на внутренних folds, а качество оценивается на внешних.
Стратификация и групповая стратификация при разбиении.

Недостаток Дорого вычислительно, особенно для LLM.

7. Прокси-метрики и real‑world evaluation

Даже при идеальном разбиении метрики на тесте могут быть обманчивы. Прокси-метрики — это показатели, которые коррелируют с реальным поведением, но не основаны на том же бенчмарке.

Примеры

Offline: Accuracy, F1, BLEU, ROUGE (но они могут быть «пробиты»).
Online: User satisfaction, CTR, task success rate, retention.
Surrogate metrics Например, для RAG‑систем — faithfulness оценивается отдельно от retrieval.

Стратегия

Использовать несколько метрик одновременно (никогда не полагаться на одну).
Проводить A/B тесты в продакшене.
Для исследовательских проектов — публиковать код и тестовые наборы, чтобы другие могли воспроизвести результаты.

8. Дополнительные техники и best practices

Early stopping на validation — предотвращает переобучение на тренировочных данных, но не на тесте.
Регуляризация и dropout — уменьшают способность модели запоминать шум.
Ансамбли и bagging — снижают дисперсию и риск подстройки под конкретный тест.
Хранить тестовые лейблы под замком — в продакшене метки не должны быть доступны разработчикам.
Процессная дисциплина фиксировать версию тестового набора, не допускать его изменения после начала экспериментов.

Пет-проект для закрепления

Задача Реализовать систему оценки классификатора текстов с защитой от evaluation overfitting.

Инструменты

Python, scikit‑learn, Hugging Face datasets.
Данные: любой датасет с текстовой классификацией (например, AG News, IMDB).

Шаги:

Загрузить датасет, разделить на train/validation/test (70/10/20) с групповой стратификацией.
Проверить контаминацию: вычислить 8‑граммовое перекрытие между test и train. Если overlap > 0.6 — удалить спорные примеры.
Обучить baseline‑модель (Tfidf + LogisticRegression).
Подобрать гиперпараметры (C, ngram_range) на validation, используя 5‑fold GroupKFold.
Зафиксировать финальную модель, оценить на тесте — это будет «золотой holdout».
Симулировать «загрязнение»: добавить 10% тестовых примеров в train, повторить обучение. Убедиться, что метрики выросли, но прокси‑метрики (например, предсказание на синтетических негативных примерах) не улучшились.
Внедрить динамическую проверку: сгенерировать 100 новых тестовых примеров через LLM, оценить модель на них — сравнить с исходным тестом.

Ожидаемый результат Набор скриптов, который автоматически предотвращает контаминацию, использует кросс-валидацию для выбора модели и выводит отчёт с несколькими метриками, включая прокси.

Связь с другими вопросами

Вопрос	Тема
875	Как организовать процесс оценки модели в RAG?
877	Как измерять faithfulness и answer relevance?
890	Что такое data leakage и как его избежать?
852	Как работает cross-validation в ML?
864	Какие метрики использовать для LLM?
881	Как строить A/B тесты для AI-продуктов?

Краткий тезис

1. Термин: Evaluation Overfitting

Причины

Многократное использование одного тестового набора (например, при поиске гиперпараметров).
Контаминация (загрязнение) — часть тестовых примеров случайно попала в обучающую выборку.
Тестовые данные не отражают реальное распределение (например, слишком старые или узкие).

Последствия

Завышенные метрики на тесте, провал в продакшене.
Невозможность сравнить разные версии модели.

2. Holdout золотого набора (Golden Holdout)

Как организовать

Разделить исходные данные на три части: train (обучение), validation (валидация), test (Holdout|золотой holdout).
Validation используется для настройки модели, test — только один раз.
Размер holdout обычно 5–10% от общего датасета.

Требования

Holdout должен быть репрезентативен (то же распределение классов, временной период).
Данные holdout’а нельзя просматривать, пока модель не готова.

Ограничения Если holdout мал, оценка может быть шумной. Если велик — уменьшается объём обучения.

3. Случайный порядок и стратификация

Правила

Разбиение должно быть стратифицированным — сохранять пропорции целевых классов.
Для временных рядов — стратификация по времени (train до определённой даты, test после).
Групповая стратификация (стратификация|group shuffle split) — гарантирует, что все записи одного пользователя/источника попадут только в одну часть.
Случайный порядок также означает, что тестовые данные не должны быть похожи на training по неявным признакам (например, одинаковые шаблоны текста).

Пример кода (Python, sklearn):

from sklearn.model_selection import GroupShuffleSplit

groups = df['user_id']  # пример группировки
gss = GroupShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
train_idx, test_idx = next(gss.split(df, groups=groups))

4. Проверка контаминации (n-gram overlap)

Методы обнаружения

n‑gram overlap Подсчёт доли уникальных n‑граммов тестового примера, которые есть в обучающей выборке. Порог — 70–80% совпадения считается подозрительным.
Exact match: Проверить полное совпадение или substring‑совпадение.
Встраивания (embedding similarity) — если эмбеддинги тестового примера слишком близки к обучающему.

Пример простой проверки на Python

from collections import Counter

def ngram_overlap(train_texts, test_text, n=8):
    train_ngrams = set()
    for txt in train_texts:
        for i in range(len(txt) - n + 1):
            train_ngrams.add(txt[i:i+n])
    test_ngrams = [test_text[i:i+n] for i in range(len(test_text) - n + 1)]
    overlap = sum(1 for ng in test_ngrams if ng in train_ngrams)
    return overlap / len(test_ngrams) if test_ngrams else 0

Действия при обнаружении

Удалить контаминированные примеры из теста.
Переобучить модель без этих данных.
Для публичных бенчмарков участвовать в соревнованиях слепым образом (без доступа к лейблам теста).

5. Dynamic evals (динамические оценки)

Подходы

Ротация тестовых заданий Периодически (раз в месяц) заменять часть примеров новыми, из того же распределения.
Аугментация теста Добавлять новые варианты входов (синонимы, перефразирования) без изменения целевых меток.
Живой мониторинг В дополнение к статическому тесту использовать метрики на реальном пользовательском трафике (онлайн‑A/B тесты).

Преимущества Снижает риск неявного подстраивания под фиксированные данные.

Недостаток Требует дополнительного процесса сбора и аннотации данных.

6. Cross‑validation: не фиксированный test set

Когда полезна

Маленький датасет (нельзя позволить себе большой holdout).
Поиск гиперпараметров (можно валидироваться на folds, а тест — внешний holdout).

Как избежать overfitting

Внешний цикл кросс-валидации (nested cross‑validation) — гиперпараметры настраиваются на внутренних folds, а качество оценивается на внешних.
Стратификация и групповая стратификация при разбиении.

Недостаток Дорого вычислительно, особенно для LLM.

7. Прокси-метрики и real‑world evaluation

Примеры

Offline: Accuracy, F1, BLEU, ROUGE (но они могут быть «пробиты»).
Online: User satisfaction, CTR, task success rate, retention.
Surrogate metrics Например, для RAG‑систем — faithfulness оценивается отдельно от retrieval.

Стратегия

Использовать несколько метрик одновременно (никогда не полагаться на одну).
Проводить A/B тесты в продакшене.
Для исследовательских проектов — публиковать код и тестовые наборы, чтобы другие могли воспроизвести результаты.

8. Дополнительные техники и best practices

Early stopping на validation — предотвращает переобучение на тренировочных данных, но не на тесте.
Регуляризация и dropout — уменьшают способность модели запоминать шум.
Ансамбли и bagging — снижают дисперсию и риск подстройки под конкретный тест.
Хранить тестовые лейблы под замком — в продакшене метки не должны быть доступны разработчикам.
Процессная дисциплина фиксировать версию тестового набора, не допускать его изменения после начала экспериментов.

Пет-проект для закрепления

Задача Реализовать систему оценки классификатора текстов с защитой от evaluation overfitting.

Инструменты

Python, scikit‑learn, Hugging Face datasets.
Данные: любой датасет с текстовой классификацией (например, AG News, IMDB).

Шаги:

Загрузить датасет, разделить на train/validation/test (70/10/20) с групповой стратификацией.
Проверить контаминацию: вычислить 8‑граммовое перекрытие между test и train. Если overlap > 0.6 — удалить спорные примеры.
Обучить baseline‑модель (Tfidf + LogisticRegression).
Подобрать гиперпараметры (C, ngram_range) на validation, используя 5‑fold GroupKFold.
Зафиксировать финальную модель, оценить на тесте — это будет «золотой holdout».
Симулировать «загрязнение»: добавить 10% тестовых примеров в train, повторить обучение. Убедиться, что метрики выросли, но прокси‑метрики (например, предсказание на синтетических негативных примерах) не улучшились.
Внедрить динамическую проверку: сгенерировать 100 новых тестовых примеров через LLM, оценить модель на них — сравнить с исходным тестом.

Связь с другими вопросами

Вопрос	Тема
875	Как организовать процесс оценки модели в RAG?
877	Как измерять faithfulness и answer relevance?
890	Что такое data leakage и как его избежать?
852	Как работает cross-validation в ML?
864	Какие метрики использовать для LLM?
881	Как строить A/B тесты для AI-продуктов?

Как избежать evaluation overfitting (когда модель учится на тесте)?

Краткий тезис

1. Термин: Evaluation Overfitting

2. Holdout золотого набора (Golden Holdout)

3. Случайный порядок и стратификация

4. Проверка контаминации (n-gram overlap)

5. Dynamic evals (динамические оценки)

6. Cross‑validation: не фиксированный test set

7. Прокси-метрики и real‑world evaluation

8. Дополнительные техники и best practices

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как избежать evaluation overfitting (когда модель учится на тесте)?

Краткий тезис

1. Термин: Evaluation Overfitting

2. Holdout золотого набора (Golden Holdout)

3. Случайный порядок и стратификация

4. Проверка контаминации (n-gram overlap)

5. Dynamic evals (динамические оценки)

6. Cross‑validation: не фиксированный test set

7. Прокси-метрики и real‑world evaluation

8. Дополнительные техники и best practices

Пет-проект для закрепления

Связь с другими вопросами

Навигация