Навигация (Obsidian)

- Предыдущий: [[964. Как оценивать качество синтетических данных до обучения модели?|964]] - Следующий: [[966. Как эффективно масштабировать датасет на десятки тысяч примеров?|966]] - Индекс: [[00. Индекс разборов]]

Как вы проверяете качество синтетических данных (LLM-as-Judge, человеческая валидация, outlier detection)?

Q: Краткий тезис

Качество синтетических данных, генерируемых для [[Вики/Fine-tuning|дообучения]] LLM, напрямую влияет на финальные метрики модели. Для отбраковки нерелевантных, токсичных или галлюцинирующих примеров используется многослойный пайплайн: автоматическая оценка через LLM (LLM-as-Judge), выборочная ручная валидация на репрезентативной выборке (100–1000 примеров), детекция аномалий в [[Вики/Embedding|эмбеддинг]]-пространстве (кластеризация, расстояние до центроида) и специализированные проверки на токс

Q: Пет-проект для закрепления

**Инструменты:** - Python 3.10+, `pandas`, `sentence-transformers`, `hdbscan`, `detoxify`, `openai` (для LLM-as-Judge через API), `scikit-learn` (для расстояний). - Небольшой датасет (300–500 строк) — можно взять из открытых источников (например, [[Вики/Alpaca|Alpaca]]-cleaned) и зашумлить (добавить случайные темы, токсичные ответы).

Q: Связь с другими вопросами

| Вопрос | Тема | |--------|------| | [[Вики/682. Как подготовить синтетические данные для дообучения генеративных моделей?\|682]] | Генерация синтетических данных (этап, предшествующий проверке качества) | ---

Краткий тезис

Качество синтетических данных, генерируемых для дообучения LLM, напрямую влияет на финальные метрики модели. Для отбраковки нерелевантных, токсичных или галлюцинирующих примеров используется многослойный пайплайн: автоматическая оценка через LLM (LLM-as-Judge), выборочная ручная валидация на репрезентативной выборке (100–1000 примеров), детекция аномалий в эмбеддинг-пространстве (кластеризация, расстояние до центроида) и специализированные проверки на токсичность/галлюцинации. Сочетание этих методов даёт уверенность, что синтетический датасет пригоден для обучения, не содержит выбросов и сохраняет целевое распределение.

2. Человеческая выборка (100–1000 примеров)

Человеческая валидация — «золотой стандарт», позволяющий калибровать автоматические метрики и выявлять систематические ошибки LLM-as-Judge.

Процесс:

Выбирается стратифицированная выборка (100–1000 примеров) с учётом сложности инструкции, длины ответа, ожидаемых типов ошибок.
Каждый пример оценивается не менее чем двумя независимыми аннотаторами (согласованность через Cohen’s κ > 0.7).
Аннотаторы заполняют ту же схему, что и LLM (релевантность, полнота, безопасность, отсутствие галлюцинаций), но с более детальными комментариями.

Дополнительные проверки:

Качество текста: грамматика, стиль, читаемость.
Полезность: насколько ответ помогает решить задачу пользователя.
Дубликаты/плагиат: проверка на совпадение с публичными данными (через fuzzy-хеши или поиск).

Метрики для мониторинга:

Accuracy LLM-as-Judge — процент примеров, где автоматическая оценка совпала с человеческой (в пределах допуска ±0.5 балла). Цель: >90%.
False positive / false negative rate по каждому критерию — позволяет донастраивать пороги LLM.

Пример таблицы логов выборки:

Пример ID	Human Score	LLM Score	Разница	decision (keep/discard)
0001	4.2	4.0	0.2	keep
0015	2.1 (токсично)	3.8 (ошибка)	1.7	discard, update judge prompt

После анализа расхождений можно уточнить инструкцию для LLM-as-Judge или дополнить список критериев.

3. Outlier detection: эмбеддинги + кластеризация

Синтетический датасет может содержать семантические выбросы — примеры, которые не соответствуют целевому распределению (например, инструкции на другом языке, непредусмотренные жанры). Для их обнаружения используется анализ в пространстве эмбеддингов.

Шаги:

Получение эмбеддингов. Каждый пример (инструкция + ответ) конкатенируется и пропускается через Sentence Transformer (например, all-MiniLM-L6-v2). Размерность — 384.
Кластеризация. Применяется HDBSCAN (параметры: min_cluster_size=0.5% от размера датасета, но не меньше 10; метрика — косинусное расстояние). Алгоритм выделяет плотные кластеры и помечает точки как «шум».
Анализ расстояний. Для каждой точки вычисляется расстояние до центроида своего кластера (или до ближайшего, если точка — шум). Примеры, расстояние которых превышает 95-й перцентиль, считаются потенциальными выбросами.
Дополнительная фильтрация: низкая плотность соседей (менее 5 точек в радиусе 0.3 косинусного расстояния) — признак аномалии.

Визуализация (опционально):

Уменьшение размерности через UMAP (2-3 компоненты) для построения scatter plot. Выбросы обычно находятся на периферии или образуют отдельные микрокластеры.

Результат: список id примеров, рекомендованных к исключению. Обязательно нужно проверить несколько таких «выбросов» вручную, чтобы убедиться, что фильтр корректен (не отсекаются просто редкие, но валидные случаи).

4. Проверка токсичности, галлюцинаций

Автоматические детекторы позволяют быстро отфильтровать проблемные примеры без привлечения человека.

Токсичность:

Используется Perspective API (от Google) или open-source классификаторы (Detoxify). Порог: score > 0.7 → пример исключается.
Контекстная токсичность: оценка не только отдельного ответа, но и пары (инструкция, ответ). Иногда инструкция может быть провокационной.

Галлюцинации:

Factual consistency check: на основе NLI модели (например, DeBERTa fine-tuned на FEVER). Если предпосылка (инструкция) не влечёт ответ (label = contradiction), пример помечается.
Проверка через retrieval: для закрытых предметных областей — извлечение релевантных документов из Knowledge Base и сравнение с ответом через BERTScore. При низком сходстве (ниже порога 0.5) — подозрение на галлюцинацию.
Self-check with LLM: тот же judge-промпт, но с акцентом на hallucination_free (должен быть 5). Примеры с оценкой < 4 отбрасываются.

Также полезно:

Проверка на смещение (bias): использование Winogender или BBQ-подобных наборов для инъекций стереотипов в синтетические данные.
Цензура PII: регулярные выражения и spaCy NER для нахождения персональных данных.

Пет-проект для закрепления

Задача: Разработать консольный пайплайн для валидации синтетического датасета (формат JSONL: instruction, response).

Инструменты:

Python 3.10+, pandas, sentence-transformers, hdbscan, detoxify, openai (для LLM-as-Judge через API), scikit-learn (для расстояний).
Небольшой датасет (300–500 строк) — можно взять из открытых источников (например, Alpaca-cleaned) и зашумлить (добавить случайные темы, токсичные ответы).

Шаги:

Загрузить датасет, сохранить в DataFrame.
Применить LLM-as-Judge к каждому примеру (через API GPT-3.5). Порог отбраковки 3.0.
Взять случайную выборку 50 примеров, отправить в Google Form для ручной оценки (попросить друзей/коллег). Посчитать согласованность с LLM.
Получить эмбеддинги, кластеризовать HDBSCAN, визуализировать UMAP.
Прогнать Detoxify, отфильтровать примеры с score > 0.7.
Вывести статистику: сколько примеров прошло, сколько отброшено на каждом этапе.

Ожидаемый результат:

У вас будет воспроизводимый ноутбук/скрипт, который можно адаптировать под любой датасет.
Вы научитесь комбинировать автоматические и ручные методы, а также интерпретировать расхождения между ними.

Связь с другими вопросами

Вопрос	Тема
682	Генерация синтетических данных (этап, предшествующий проверке качества)

Краткий тезис

2. Человеческая выборка (100–1000 примеров)

Процесс:

Выбирается стратифицированная выборка (100–1000 примеров) с учётом сложности инструкции, длины ответа, ожидаемых типов ошибок.
Каждый пример оценивается не менее чем двумя независимыми аннотаторами (согласованность через Cohen’s κ > 0.7).
Аннотаторы заполняют ту же схему, что и LLM (релевантность, полнота, безопасность, отсутствие галлюцинаций), но с более детальными комментариями.

Дополнительные проверки:

Качество текста: грамматика, стиль, читаемость.
Полезность: насколько ответ помогает решить задачу пользователя.
Дубликаты/плагиат: проверка на совпадение с публичными данными (через fuzzy-хеши или поиск).

Метрики для мониторинга:

Accuracy LLM-as-Judge — процент примеров, где автоматическая оценка совпала с человеческой (в пределах допуска ±0.5 балла). Цель: >90%.
False positive / false negative rate по каждому критерию — позволяет донастраивать пороги LLM.

Пример таблицы логов выборки:

Пример ID	Human Score	LLM Score	Разница	decision (keep/discard)
0001	4.2	4.0	0.2	keep
0015	2.1 (токсично)	3.8 (ошибка)	1.7	discard, update judge prompt

После анализа расхождений можно уточнить инструкцию для LLM-as-Judge или дополнить список критериев.

3. Outlier detection: эмбеддинги + кластеризация

Шаги:

Получение эмбеддингов. Каждый пример (инструкция + ответ) конкатенируется и пропускается через Sentence Transformer (например, all-MiniLM-L6-v2). Размерность — 384.
Кластеризация. Применяется HDBSCAN (параметры: min_cluster_size=0.5% от размера датасета, но не меньше 10; метрика — косинусное расстояние). Алгоритм выделяет плотные кластеры и помечает точки как «шум».
Анализ расстояний. Для каждой точки вычисляется расстояние до центроида своего кластера (или до ближайшего, если точка — шум). Примеры, расстояние которых превышает 95-й перцентиль, считаются потенциальными выбросами.
Дополнительная фильтрация: низкая плотность соседей (менее 5 точек в радиусе 0.3 косинусного расстояния) — признак аномалии.

Визуализация (опционально):

Уменьшение размерности через UMAP (2-3 компоненты) для построения scatter plot. Выбросы обычно находятся на периферии или образуют отдельные микрокластеры.

4. Проверка токсичности, галлюцинаций

Автоматические детекторы позволяют быстро отфильтровать проблемные примеры без привлечения человека.

Токсичность:

Используется Perspective API (от Google) или open-source классификаторы (Detoxify). Порог: score > 0.7 → пример исключается.
Контекстная токсичность: оценка не только отдельного ответа, но и пары (инструкция, ответ). Иногда инструкция может быть провокационной.

Галлюцинации:

Factual consistency check: на основе NLI модели (например, DeBERTa fine-tuned на FEVER). Если предпосылка (инструкция) не влечёт ответ (label = contradiction), пример помечается.
Проверка через retrieval: для закрытых предметных областей — извлечение релевантных документов из Knowledge Base и сравнение с ответом через BERTScore. При низком сходстве (ниже порога 0.5) — подозрение на галлюцинацию.
Self-check with LLM: тот же judge-промпт, но с акцентом на hallucination_free (должен быть 5). Примеры с оценкой < 4 отбрасываются.

Также полезно:

Проверка на смещение (bias): использование Winogender или BBQ-подобных наборов для инъекций стереотипов в синтетические данные.
Цензура PII: регулярные выражения и spaCy NER для нахождения персональных данных.

Пет-проект для закрепления

Задача: Разработать консольный пайплайн для валидации синтетического датасета (формат JSONL: instruction, response).

Инструменты:

Python 3.10+, pandas, sentence-transformers, hdbscan, detoxify, openai (для LLM-as-Judge через API), scikit-learn (для расстояний).
Небольшой датасет (300–500 строк) — можно взять из открытых источников (например, Alpaca-cleaned) и зашумлить (добавить случайные темы, токсичные ответы).

Шаги:

Загрузить датасет, сохранить в DataFrame.
Применить LLM-as-Judge к каждому примеру (через API GPT-3.5). Порог отбраковки 3.0.
Взять случайную выборку 50 примеров, отправить в Google Form для ручной оценки (попросить друзей/коллег). Посчитать согласованность с LLM.
Получить эмбеддинги, кластеризовать HDBSCAN, визуализировать UMAP.
Прогнать Detoxify, отфильтровать примеры с score > 0.7.
Вывести статистику: сколько примеров прошло, сколько отброшено на каждом этапе.

Ожидаемый результат:

У вас будет воспроизводимый ноутбук/скрипт, который можно адаптировать под любой датасет.
Вы научитесь комбинировать автоматические и ручные методы, а также интерпретировать расхождения между ними.

Связь с другими вопросами

Вопрос	Тема
682	Генерация синтетических данных (этап, предшествующий проверке качества)