Что такое synthetic eval collapse и как его предотвратить?

Q: 1. Термин: Synthetic eval collapse (коллапс синтетической оценки)

Почему это происходит - [[Вики/model\|Модель]] (особенно [[Вики/LLM\|LLM]]) в процессе обучения или **[[Вики/SFT\|fine-tuning]]** видит много синтетических примеров, сгенерированных тем же или похожим способом. - Она начинает «запоминать» паттерны синтетического распределения, а не обобщать на реальные данные.

Q: 2. Почему синтетические данные так популярны в eval?

**[[Вики/Synthetic dataset\|Синтетические данные]]** — это искусственно сгенерированные примеры (вопрос-ответ, диалоги, инструкции), созданные с помощью [[Вики/LLM\|LLM]] или шаблонов. Их преимущества: - [[Вики/scalability\|Масштабируемость]]: можно сгенерировать тысячи примеров за минуты.

Q: 3. Механизм коллапса: от обучения к оценке

Рассмотрим типичный [[Вики/пайплайн автоматического тестирования\|pipeline]]: 1. [[Вики/synthetic generation\|Генерация синтетических данных]]: [[Вики/LLM\|LLM]] (например, [[Вики/LLM\|GPT-4]]) создаёт пары (вопрос, ответ) на основе корпуса документов. 2. [[Вики/SFT\|Fine-tuning]]: ваша [[Вики/model\|модель]] обучается на этих данных.

Q: 4.1 Мониторинг расхождения метрик

Сравнивайте [[Вики/accuracy\|accuracy]] / F1 / [[Вики/BLEU\|BLEU]] / [[Вики/ROUGE\|ROUGE]] на синтетическом тесте и на небольшом реальном валидационном наборе (50–200 примеров, размеченных людьми). Если [[Вики/divergence\|расхождение]] растёт со временем — это тревожный [[Вики/signal\|сигнал]].

Q: 4.2 Корреляция с human evaluation

Периодически проводите [[Вики/AB testing\|A/B-тестирование]] с участием людей. Пусть аннотаторы оценивают ответы модели по шкале 1–5. Считайте корреляцию Спирмена между синтетической метрикой и человеческой оценкой. Если [[Вики/correlation\|корреляция]] падает ниже 0.5 — [[Вики/collapse\|коллапс]].

Q: 4.3 Тест на «узнавание» синтетики

Попробуйте обучить [[Вики/Classifier\|классификатор]], отличающий синтетические примеры от реальных. Если [[Вики/Classifier\|классификатор]] легко разделяет их ([[Вики/accuracy\|accuracy]] >90%), значит распределения сильно разошлись. ---

Q: 5.1 Регулярное обновление синтетических данных

- Используйте разные LLM-генераторы ([[Вики/gpt-3.5-turbo\|GPT-4]], [[Вики/Claude API\|Claude]], [[Вики/Llama\|Llama]]) для создания eval-наборов. - Меняйте [[Вики/промпты\|промпты]], добавляйте вариации (разные стили, длины, сложность). - Обновляйте синтетический тест каждые 2–4 недели.

Q: 5.2 Перемешивание с реальными примерами

- Создайте гибридный eval-set: 50% синтетики + 50% реальных запросов (собранных из логов или краудсорсинга). - Реальные примеры должны быть свежими (не старше 1–2 месяцев), чтобы отражать текущее [[Вики/probability distribution\|распределение]].

Краткий тезис

Synthetic eval collapse — это деградация качества оценки модели, когда синтетические тестовые данные перестают отражать реальное распределение задач]], и метрики на них перестают коррелировать с качеством на реальных данных. Причина — модель «подстраивается» под синтетическое распределение в процессе обучения или дообучения. Предотвратить коллапс можно регулярным обновлением синтетических данных, смешиванием с реальными примерами, использованием holdout-наборов и внедрением человеческой валидации.

1. Термин: Synthetic eval collapse (коллапс синтетической оценки)

Synthetic eval collapse — это явление, при котором метрики, полученные на синтетических тестовых наборах, перестают быть надёжным индикатором реального качества модели. Термин «коллапс» подчёркивает резкое падение корреляции между синтетической оценкой и реальной производительностью.

Почему это происходит

Модель (особенно LLM) в процессе обучения или fine-tuning видит много синтетических примеров, сгенерированных тем же или похожим способом.
Она начинает «запоминать» паттерны синтетического распределения, а не обобщать на реальные данные.
В результате accuracy на синтетическом тесте растёт, а на реальных данных падает — это классический признак overfitting на синтетику.

Ключевые признаки коллапса

Accuracy на синтетическом eval-set стабильно высокая (например, >95%), но на реальных пользовательских запросах падает на 10–20%.
Низкая корреляция с human judgments — люди оценивают ответы модели значительно ниже, чем синтетические метрики.
Модель начинает выдавать «шаблонные» ответы, похожие на синтетические примеры, но не отвечающие на суть вопроса.

2. Почему синтетические данные так популярны в eval?

Синтетические данные — это искусственно сгенерированные примеры (вопрос-ответ, диалоги, инструкции), созданные с помощью LLM или шаблонов. Их преимущества:

Масштабируемость: можно сгенерировать тысячи примеров за минуты.
Контроль: можно покрыть редкие сценарии (edge cases).
Дешевизна: не нужно нанимать аннотаторов.

Однако у них есть фундаментальный недостаток: синтетическое распределение почти всегда уже, чем реальное. LLM-генератор вносит систематические смещения (bias), и если модель обучается на таких же синтетических данных, eval-set перестаёт быть репрезентативным.

Пример:
Если вы генерируете вопросы к документам с помощью GPT-4, а затем fine-tune свою модель на этих же вопросах, то на тесте из таких же GPT-4-вопросов модель покажет 98% accuracy. Но на реальных вопросах пользователей (с опечатками, разговорным стилем, неявными отсылками) accuracy упадёт до 70%.

3. Механизм коллапса: от обучения к оценке

Рассмотрим типичный pipeline:

Генерация синтетических данных: LLM (например, GPT-4) создаёт пары (вопрос, ответ) на основе корпуса документов.
Fine-tuning: ваша модель обучается на этих данных.
Оценка: вы используете другой набор синтетических данных (или тот же, но с разбивкой train/test) для вычисления метрик.
Развёртывание: модель попадает к реальным пользователям.

Коллапс возникает на этапе 3, если:

Синтетический тестовый набор сгенерирован тем же способом, что и обучающий.
Модель «выучила» стиль генерации, а не содержание.
Реальные запросы отличаются по длине, тону, сложности.

Математическая интуиция
Пусть $P_{synth}$ — распределение синтетических данных, $P_{real}$ — реальное. Модель минимизирует loss на $P_{synth}$, но мы хотим, чтобы она работала хорошо на $P_{real}$. Если $P_{synth}$ и $P_{real}$ сильно различаются, то минимизация loss на $P_{synth}$ может даже увеличить loss на $P_{real}$ (negative transfer).

4. Как диагностировать synthetic eval collapse?

4.1 Мониторинг расхождения метрик

Сравнивайте accuracy / F1 / BLEU / ROUGE на синтетическом тесте и на небольшом реальном валидационном наборе (50–200 примеров, размеченных людьми). Если расхождение растёт со временем — это тревожный сигнал.

4.2 Корреляция с human evaluation

Периодически проводите A/B-тестирование с участием людей. Пусть аннотаторы оценивают ответы модели по шкале 1–5. Считайте корреляцию Спирмена между синтетической метрикой и человеческой оценкой. Если корреляция падает ниже 0.5 — коллапс.

4.3 Тест на «узнавание» синтетики

Попробуйте обучить классификатор, отличающий синтетические примеры от реальных. Если классификатор легко разделяет их (accuracy >90%), значит распределения сильно разошлись.

5. Стратегии предотвращения коллапса

5.1 Регулярное обновление синтетических данных

Используйте разные LLM-генераторы (GPT-4, Claude, Llama) для создания eval-наборов.
Меняйте промпты, добавляйте вариации (разные стили, длины, сложность).
Обновляйте синтетический тест каждые 2–4 недели.

5.2 Перемешивание с реальными примерами

Создайте гибридный eval-set: 50% синтетики + 50% реальных запросов (собранных из логов или краудсорсинга).
Реальные примеры должны быть свежими (не старше 1–2 месяцев), чтобы отражать текущее распределение.

5.3 Holdout синтетических данных

Никогда не используйте в eval те примеры, которые были сгенерированы тем же пайплайном, что и обучающие.
Держите отдельный holdout-набор, сгенерированный другим способом (другая LLM, другие промпты, другой корпус документов).

5.4 Человеческая валидация (Human-in-the-loop)

Раз в месяц проводите human evaluation на 100–200 примерах.
Используйте эти оценки для калибровки синтетических метрик (например, взвешивайте их по корреляции).

5.5 Метрики устойчивости (robustness metrics)

Добавьте в eval-set adversarial примеры: запросы с опечатками, перефразирования, вопросы вне домена.
Следите за метрикой distribution shift (например, MMD — Maximum Mean Discrepancy) между синтетическим и реальным распределением.

6. Пример кода: простой детектор коллапса

import numpy as np
from scipy.stats import spearmanr

# Пример: синтетические accuracy и человеческие оценки за 5 недель
weeks = [1, 2, 3, 4, 5]
synth_acc = [0.95, 0.96, 0.97, 0.98, 0.99]  # растёт
human_score = [4.2, 4.1, 3.9, 3.7, 3.5]     # падает

corr, p_value = spearmanr(synth_acc, human_score)
print(f"Корреляция Спирмена: {corr:.2f} (p={p_value:.3f})")
if corr < 0.5:
    print("⚠️ Возможный synthetic eval collapse!")
else:
    print("✅ Корреляция приемлема.")

Вывод при корреляции 0.3 (как в примере) — коллапс.

7. Сравнение подходов к предотвращению

Стратегия	Сложность	Эффективность	Недостатки
Обновление генератора	Низкая	Средняя	Требует доступа к разным LLM
Гибридный eval-set	Средняя	Высокая	Нужны реальные данные
Holdout-набор	Низкая	Высокая	Может устареть
Human-in-the-loop	Высокая	Очень высокая	Дорого, медленно
Adversarial тесты	Средняя	Средняя	Сложно автоматизировать

8. Связь с другими концепциями

Overfitting — модель подстраивается под синтетическое распределение, теряя обобщающую способность.
Distribution shift — различие между $P_{synth}$ и $P_{real}$.
Concept drift — изменение реального распределения со временем (например, пользователи начинают задавать вопросы по-новому).
Data contamination — если синтетические примеры случайно попали в обучающую выборку, коллапс ускоряется.
Evaluation leakage — когда eval-данные пересекаются с train-данными (даже косвенно через генератор).

Пет-проект для закрепления

Задача Разработать систему мониторинга synthetic eval collapse для чат-бота на основе RAG.

Инструменты Python, LangChain, OpenAI API, Streamlit (дашборд).

Шаги:

Сгенерируйте 500 синтетических вопросов к документам с помощью GPT-4 (промпт: «Создай вопрос по документу, на который можно ответить цитатой»).
Соберите 100 реальных вопросов из логов (или попросите друзей задать вопросы).
Обучите простую модель (например, fine-tune BERT) на синтетических данных.
Каждую неделю замеряйте accuracy на синтетическом тесте (100 примеров) и на реальном тесте (50 примеров).
Стройте график расхождения метрик.
Добавьте human evaluation: 2–3 человека оценивают ответы по шкале 1–5.
Реализуйте алерт, если корреляция Спирмена падает ниже 0.6.

Ожидаемый результат Вы увидите, как accuracy на синтетике растёт, а на реальных данных падает — это и есть synthetic eval collapse. Затем примените стратегии предотвращения (обновление генератора, гибридный тест) и убедитесь, что расхождение уменьшилось.

Связь с другими вопросами

Вопрос	Тема
493	Как оценивать RAG-систему без золотого стандарта?
495	Что такое LLM-as-a-judge и какие у него ограничения?
496	Как бороться с contamination данных в eval?
497	Метрики faithfulness и answer relevance
498	Human evaluation vs автоматические метрики
499	Стратегии краудсорсинга для оценки RAG

Краткий тезис

1. Термин: Synthetic eval collapse (коллапс синтетической оценки)

Почему это происходит

Модель (особенно LLM) в процессе обучения или fine-tuning видит много синтетических примеров, сгенерированных тем же или похожим способом.
Она начинает «запоминать» паттерны синтетического распределения, а не обобщать на реальные данные.
В результате accuracy на синтетическом тесте растёт, а на реальных данных падает — это классический признак overfitting на синтетику.

Ключевые признаки коллапса

Accuracy на синтетическом eval-set стабильно высокая (например, >95%), но на реальных пользовательских запросах падает на 10–20%.
Низкая корреляция с human judgments — люди оценивают ответы модели значительно ниже, чем синтетические метрики.
Модель начинает выдавать «шаблонные» ответы, похожие на синтетические примеры, но не отвечающие на суть вопроса.

2. Почему синтетические данные так популярны в eval?

Масштабируемость: можно сгенерировать тысячи примеров за минуты.
Контроль: можно покрыть редкие сценарии (edge cases).
Дешевизна: не нужно нанимать аннотаторов.

3. Механизм коллапса: от обучения к оценке

Рассмотрим типичный pipeline:

Генерация синтетических данных: LLM (например, GPT-4) создаёт пары (вопрос, ответ) на основе корпуса документов.
Fine-tuning: ваша модель обучается на этих данных.
Оценка: вы используете другой набор синтетических данных (или тот же, но с разбивкой train/test) для вычисления метрик.
Развёртывание: модель попадает к реальным пользователям.

Коллапс возникает на этапе 3, если:

Синтетический тестовый набор сгенерирован тем же способом, что и обучающий.
Модель «выучила» стиль генерации, а не содержание.
Реальные запросы отличаются по длине, тону, сложности.

4. Как диагностировать synthetic eval collapse?

4.1 Мониторинг расхождения метрик

4.2 Корреляция с human evaluation

4.3 Тест на «узнавание» синтетики

5. Стратегии предотвращения коллапса

5.1 Регулярное обновление синтетических данных

Используйте разные LLM-генераторы (GPT-4, Claude, Llama) для создания eval-наборов.
Меняйте промпты, добавляйте вариации (разные стили, длины, сложность).
Обновляйте синтетический тест каждые 2–4 недели.

5.2 Перемешивание с реальными примерами

Создайте гибридный eval-set: 50% синтетики + 50% реальных запросов (собранных из логов или краудсорсинга).
Реальные примеры должны быть свежими (не старше 1–2 месяцев), чтобы отражать текущее распределение.

5.3 Holdout синтетических данных

Никогда не используйте в eval те примеры, которые были сгенерированы тем же пайплайном, что и обучающие.
Держите отдельный holdout-набор, сгенерированный другим способом (другая LLM, другие промпты, другой корпус документов).

5.4 Человеческая валидация (Human-in-the-loop)

Раз в месяц проводите human evaluation на 100–200 примерах.
Используйте эти оценки для калибровки синтетических метрик (например, взвешивайте их по корреляции).

5.5 Метрики устойчивости (robustness metrics)

Добавьте в eval-set adversarial примеры: запросы с опечатками, перефразирования, вопросы вне домена.
Следите за метрикой distribution shift (например, MMD — Maximum Mean Discrepancy) между синтетическим и реальным распределением.

6. Пример кода: простой детектор коллапса

import numpy as np
from scipy.stats import spearmanr

# Пример: синтетические accuracy и человеческие оценки за 5 недель
weeks = [1, 2, 3, 4, 5]
synth_acc = [0.95, 0.96, 0.97, 0.98, 0.99]  # растёт
human_score = [4.2, 4.1, 3.9, 3.7, 3.5]     # падает

corr, p_value = spearmanr(synth_acc, human_score)
print(f"Корреляция Спирмена: {corr:.2f} (p={p_value:.3f})")
if corr < 0.5:
    print("⚠️ Возможный synthetic eval collapse!")
else:
    print("✅ Корреляция приемлема.")

Вывод при корреляции 0.3 (как в примере) — коллапс.

7. Сравнение подходов к предотвращению

Стратегия	Сложность	Эффективность	Недостатки
Обновление генератора	Низкая	Средняя	Требует доступа к разным LLM
Гибридный eval-set	Средняя	Высокая	Нужны реальные данные
Holdout-набор	Низкая	Высокая	Может устареть
Human-in-the-loop	Высокая	Очень высокая	Дорого, медленно
Adversarial тесты	Средняя	Средняя	Сложно автоматизировать

8. Связь с другими концепциями

Overfitting — модель подстраивается под синтетическое распределение, теряя обобщающую способность.
Distribution shift — различие между $P_{synth}$ и $P_{real}$.
Concept drift — изменение реального распределения со временем (например, пользователи начинают задавать вопросы по-новому).
Data contamination — если синтетические примеры случайно попали в обучающую выборку, коллапс ускоряется.
Evaluation leakage — когда eval-данные пересекаются с train-данными (даже косвенно через генератор).

Пет-проект для закрепления

Задача Разработать систему мониторинга synthetic eval collapse для чат-бота на основе RAG.

Инструменты Python, LangChain, OpenAI API, Streamlit (дашборд).

Шаги:

Сгенерируйте 500 синтетических вопросов к документам с помощью GPT-4 (промпт: «Создай вопрос по документу, на который можно ответить цитатой»).
Соберите 100 реальных вопросов из логов (или попросите друзей задать вопросы).
Обучите простую модель (например, fine-tune BERT) на синтетических данных.
Каждую неделю замеряйте accuracy на синтетическом тесте (100 примеров) и на реальном тесте (50 примеров).
Стройте график расхождения метрик.
Добавьте human evaluation: 2–3 человека оценивают ответы по шкале 1–5.
Реализуйте алерт, если корреляция Спирмена падает ниже 0.6.

Связь с другими вопросами

Вопрос	Тема
493	Как оценивать RAG-систему без золотого стандарта?
495	Что такое LLM-as-a-judge и какие у него ограничения?
496	Как бороться с contamination данных в eval?
497	Метрики faithfulness и answer relevance
498	Human evaluation vs автоматические метрики
499	Стратегии краудсорсинга для оценки RAG

Что такое synthetic eval collapse и как его предотвратить?

Краткий тезис

1. Термин: Synthetic eval collapse (коллапс синтетической оценки)

2. Почему синтетические данные так популярны в eval?

3. Механизм коллапса: от обучения к оценке

4. Как диагностировать synthetic eval collapse?

4.1 Мониторинг расхождения метрик

4.2 Корреляция с human evaluation

4.3 Тест на «узнавание» синтетики

5. Стратегии предотвращения коллапса

5.1 Регулярное обновление синтетических данных

5.2 Перемешивание с реальными примерами

5.3 Holdout синтетических данных

5.4 Человеческая валидация (Human-in-the-loop)

5.5 Метрики устойчивости (robustness metrics)

6. Пример кода: простой детектор коллапса

7. Сравнение подходов к предотвращению

8. Связь с другими концепциями

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое synthetic eval collapse и как его предотвратить?

Краткий тезис

1. Термин: Synthetic eval collapse (коллапс синтетической оценки)

2. Почему синтетические данные так популярны в eval?

3. Механизм коллапса: от обучения к оценке

4. Как диагностировать synthetic eval collapse?

4.1 Мониторинг расхождения метрик

4.2 Корреляция с human evaluation

4.3 Тест на «узнавание» синтетики

5. Стратегии предотвращения коллапса

5.1 Регулярное обновление синтетических данных

5.2 Перемешивание с реальными примерами

5.3 Holdout синтетических данных

5.4 Человеческая валидация (Human-in-the-loop)

5.5 Метрики устойчивости (robustness metrics)

6. Пример кода: простой детектор коллапса

7. Сравнение подходов к предотвращению

8. Связь с другими концепциями

Пет-проект для закрепления

Связь с другими вопросами

Навигация