Как вы генерируете synthetic данные для instruction tuning?

Q: 1. Термины: Synthetic data и Instruction tuning

- [[Вики/Synthetic dataset|Synthetic data]] — данные, созданные алгоритмически, а не собранные из реальных взаимодействий. Позволяют быстро получить размеченные [[Вики/датасеты|датасеты]] для задач, где трудно собрать реальные примеры. - **[[Вики/Instruction tuning|Instruction tuning]]** — этап [[Вики/SFT|fine-tuning LLM]], при котором [[Вики/model|модель]] обучается следовать инструкциям на парах «[[Вики/промпт агента|промпт]] → ответ». Цель — улучшить способность обобщать на новые задачи ([[Ви

Q: 2. Self-Instruct: генерация инструкций через саму модель

1. Задать [[Вики/Seed pool|seed-пул]] — небольшой набор ручных инструкций (например, «Напиши эссе о кошках», «Переведи на французский»). 2. Из seed-пула случайно выбирают несколько инструкций и просят [[Вики/LLM|LLM]] сгенерировать новые ([[Вики/промпт агента|промпт]] вида: «Придумай новую задачу, похожую на эти примеры»).

Q: 3. Evol-Instruct: эволюционное усложнение инструкций (WizardLM)

- [[Вики/Add|Add]] [[Вики/constraints|constraints]] («добавь условие» — «...используя только 100 слов») - [[Вики/Data augmentation|Deepening]] («углуби» — «...и приведи пример из реальной жизни») - Concretizing («конкретизируй» — «...расскажи про метод градиентного спуска, а не про [[Вики/training|обучение]] в целом»)

Q: 5. Другие методы генерации synthetic data

- [[Вики/Backtranslation|Backtranslation]] — берут ответы и просят [[Вики/GPT-4o|LLM]] придумать к ним инструкцию ([[Вики/sampling|обратный процесс]]). Полезен, когда есть корпус хороших ответов, но нет инструкций. - **[[Вики/Data augmentation|Data augmentation]]** — модифицируют существующие инструкции ([[Вики/Synonym swap|замена синонимов]], [[Вики/Data augmentation|перефразирование]], объединение нескольких задач).

Q: 6. Фильтрация и контроль качества

Сырые [[Вики/Synthetic dataset|synthetic]] данные содержат [[Вики/ошибки|ошибки]], нелогичные инструкции, повторы. [[Вики/Filtering|Фильтрация]] обязательна. Методы: - [[Вики/Rule-based classifier|Rule-based]] [[Вики/Filtering|фильтрация]]: удаление инструкций короче N символов, содержащих нецензурную лексику, неправильную пунктуацию, шаблонные фразы.

Q: 7. Пайплайн генерации: полный цикл

Типовой [[Вики/пайплайн|пайплайн]] для [[Вики/Self-instruct|synthetic data]]: 1. [[Вики/Domain|Domain]] [[Вики/Selection|selection]] — выбрать область (медицина, юриспруденция, [[Вики/Code|код]]). 2. [[Вики/Deterministic seed|Seed]] creation — 50–100 вручную написанных инструкций высокого качества.

Q: 8. Практические соображения

- Качество vs количество: лучше 10k отфильтрованных примеров, чем 100k мусора. - Дороговизна: вызовы [[Вики/gpt-3.5-turbo|GPT-4]] для генерации и оценки стоят денег. Можно использовать opensource модели ([[Вики/Mistral|Mistral]], [[Вики/Llama|Llama]]) для дешёвой генерации и только оценку через сильную [[Вики/model|модель]].

Краткий тезис

Synthetic data (синтетические данные) для instruction tuning (дообучения по инструкциям) — это искусственно созданные пары «инструкция — ответ», которые имитируют реальные пользовательские запросы. Основные методы: Self-Instruct (генерация инструкций с помощью самой LLM), Evol-Instruct (эволюционное усложнение инструкций) и прямой промпт сильной модели (GPT-4, Claude). Ключевая задача — фильтрация низкокачественных примеров, чтобы не ухудшить способности модели.

1. Термины: Synthetic data и Instruction tuning

Synthetic data — данные, созданные алгоритмически, а не собранные из реальных взаимодействий. Позволяют быстро получить размеченные датасеты для задач, где трудно собрать реальные примеры.
Instruction tuning — этап fine-tuning LLM, при котором модель обучается следовать инструкциям на парах «промпт → ответ». Цель — улучшить способность обобщать на новые задачи (zero-shot generalization).

Synthetic data решают проблему дефицита качественных инструкций: evaluation|ручная разметка тысяч примеров дорога и медленна. Генерация через LLM (особенно сильной) даёт масштабируемый способ получить корпус.

2. Self-Instruct: генерация инструкций через саму модель

Self-Instruct (Wang et al., 2022) — метод, при котором модель генерирует инструкции, используя свой же генеративный потенциал. Этапы:

Задать seed-пул — небольшой набор ручных инструкций (например, «Напиши эссе о кошках», «Переведи на французский»).
Из seed-пула случайно выбирают несколько инструкций и просят LLM сгенерировать новые (промпт вида: «Придумай новую задачу, похожую на эти примеры»).
Сгенерированные инструкции фильтруют (убирают дубликаты, неинформативные, слишком простые).
Для каждой инструкции LLM генерирует ответ (иногда вывод рассуждения).
Повторяют итерации, получая тысячи пар.

Пример промпта (упрощённо):

Ты — помощник. Вот несколько примеров инструкций:
1. Объясни разницу между машинным обучением и глубоким обучением.
2. Напиши код на Python для сортировки списка.
Придумай 5 новых инструкций, которые могут быть полезны пользователю.

Self-Instruct лёгок в реализации, но качество инструкций ограничено возможностями самой модели. Если модель слабая, генерируются однотипные или нелогичные задания.

3. Evol-Instruct: эволюционное усложнение инструкций (WizardLM)

Evol-Instruct (Xu et al., 2023) — метод, который последовательно усложняет начальные инструкции через пять типов мутаций:

Add constraints («добавь условие» — «...используя только 100 слов»)
Deepening («углуби» — «...и приведи пример из реальной жизни»)
Concretizing («конкретизируй» — «...расскажи про метод градиентного спуска, а не про обучение в целом»)
Increase reasoning («увеличь рассуждения» — «...объясни пошагово»)
Complicate input («усложни вход» — «...с добавлением таблицы данных»)

Процесс многопроходный: каждую инструкцию эволюционируют несколько раз, получая сложные вариации. Ответы генерируются для исходной и для эволюционировавшей инструкции, затем сравниваются (требование: ответ должен покрывать обе). В итоге получают высококачественные, разнообразные пары.

Таблица сравнения Self-Instruct vs Evol-Instruct

Характеристика	Self-Instruct	Evol-Instruct
Источник инструкций	Seed-пул + генерация	Seed + мутации
Разнообразие	Среднее	Высокое (за счёт эволюции)
Сложность инструкций	Фиксированная	Растёт от шага к шагу
Качество ответов	Может страдать	Ответы подстраиваются под усложнение
Вычислительные затраты	Низкие	Выше (несколько итераций)

4. Русскоязычные инструкции для Self-Instruct

Для генерации инструкций на русском языке с учётом культурных особенностей можно адаптировать промпты Self-Instruct. Рекомендуется использовать явные указания на формат и темы, релевантные для русскоязычной аудитории.

Пример промпта для генерации инструкций по категории:

prompt_ru = """
Ты — ассистент, который генерирует разнообразные инструкции на русском языке.
Сгенерируй инструкцию для следующей категории: {category}
Требования:
- Инструкция должна быть на русском языке
- Задача должна требовать рассуждения или использования знаний
- Избегай простых вопросов типа "что такое X"
Инструкция:"""

Примеры категорий с культурной спецификой:

"Русская литература XIX века"
"Советская история и искусство"
"Кулинарные рецепты традиционных блюд"
"Правила русского языка и орфографии"
"Бытовые задачи (налоговая, ЖКХ, документы)"

Для улучшения качества можно добавлять в промпт несколько примеров (few-shot) из seed-пула, написанных вручную на русском языке. Это снижает риск генерации неестественных или калькированных инструкций. Также полезно указывать модели, что ответы должны быть вежливыми, использовать обращение на «Вы» в официальных контекстах или «ты» в неформальных, в зависимости от задачи.

5. Другие методы генерации synthetic data

Backtranslation — берут ответы и просят LLM придумать к ним инструкцию (обратный процесс). Полезен, когда есть корпус хороших ответов, но нет инструкций.
Data augmentation — модифицируют существующие инструкции (замена синонимов, перефразирование, объединение нескольких задач).
Chain-of-Thought generation — генерируют не только ответ, но и цепочку рассуждений для задачи, требующей логики.
Использование сильной LLM-оракула — прямое задание GPT-4 или Claude: «Сгенерируй 20 вопросов по теме {domain} с подробными ответами». Это даёт высокое качество, но дорого.

6. Фильтрация и контроль качества

Сырые synthetic данные содержат ошибки, нелогичные инструкции, повторы. Фильтрация обязательна. Методы:

Rule-based фильтрация: удаление инструкций короче N символов, содержащих нецензурную лексику, неправильную пунктуацию, шаблонные фразы.
Deduplication (дедупликация): Jaccard similarity, MinHash для удаления семантически одинаковых пар.
LLM-as-a-judge: просим отдельную модель (или ту же) оценить качество каждой пары по шкале (1-5) и отбрасываем низкие баллы. Критерии: полезность, понятность, сложность, отсутствие галлюцинаций.
Reward model (модель вознаграждения) — обученный на человеческих предпочтениях классификатор, который предсказывает, насколько хорош ответ. Отсеиваем пары с низкими скорами.

Пример простой фильтрации на Python

def filter_low_quality(pairs, min_length=10, min_score=3):
    filtered = []
    for instruction, response in pairs:
        if len(instruction) < min_length or len(response) < min_length:
            continue
        # предположим, есть функция judge_model.predict -> 1-5
        score = judge_model.predict(instruction, response)
        if score >= min_score:
            filtered.append((instruction, response))
    return filtered

7. Пайплайн генерации: полный цикл

Типовой пайплайн для synthetic data:

Domain selection — выбрать область (медицина, юриспруденция, код).
Seed creation — 50–100 вручную написанных инструкций высокого качества.
Expansion — Self-Instruct / Evol-Instruct / промпт GPT-4 порождает 10–100k новых инструкций.
Response generation — для каждой инструкции LLM генерирует ответ (иногда несколько вариантов).
Filtering — дедупликация, проверка длины, LLM-as-judge, удаление опасных инструкций.
Balancing — контроль количества задач каждого типа (classification, generation, reasoning).
Fine-tuning — дообучение модели на отфильтрованном наборе.

8. Практические соображения

Качество vs количество: лучше 10k отфильтрованных примеров, чем 100k мусора.
Дороговизна: вызовы GPT-4 для генерации и оценки стоят денег. Можно использовать opensource модели (Mistral, Llama) для дешёвой генерации и только оценку через сильную модель.
Домен: synthetic данные для общего чата и для специализированной области (например, юридические консультации) требуют разного seed и фильтрации.
Перекосы: если модель-генератор имеет bias, он перейдёт в synthetic data. Нужно проверять на чувствительные темы.
Итеративное улучшение: после fine-tuning на synthetic данных можно оценить модель на реальных задачах и дополнить dataset проблемными случаями (hard negative mining).

9. Инструменты и библиотеки

Argilla — платформа для аннотации и фильтрации synthetic data, встроенные pipeline.
Distilabel (от Argilla) — библиотека для синтеза данных с поддержкой Self-Instruct, Evol-Instruct, фильтрации.
Alpaca-LoRA — знаменитый датасет из 52k synthetic инструкций, сгенерированных через Self-Instruct из seed 175 (использовали text-davinci-003).
LIMA — подход с минимальным количеством (1000) тщательно отобранных синтетических пар, показал, что качество важнее количества.
InstructLab — фреймворк IBM для генерации synthetic data с участием сообщества.

Пример кода с использованием OpenAI API (упрощённо):

import openai

def generate_synthetic(domain, num_examples=10):
    prompt = f"""
    Ты — эксперт в {domain}. Сгенерируй {num_examples} разнообразных инструкций 
    для пользователей, которые хотят узнать что-то по этой теме. 
    Для каждой инструкции напиши подробный ответ.
    Формат: 
    Инструкция: ... 
    Ответ: ...
    """
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.8
    )
    text = response["choices"][0]["message"]["content"]
    # парсинг инструкций и ответов
    return parse_to_pairs(text)

10. Оценка качества synthetic data

Конечная метрика — улучшение downstream performance (перплексия, accuracy, human evaluation) после fine-tuning на synthetic данных. Полезно проводить ablation study: дообучать модель на разных подмножествах (Self-Instruct vs Evol-Instruct, с фильтрацией и без) и сравнивать на бенчмарках (MMLU, HumanEval, MT-Bench).

Таблица: влияние фильтрации

Dataset	Размер	MMLU (acc)	MT-Bench (score)
Без фильтрации	50k	0.62	5.8
С фильтрацией (LLM-as-judge)	30k	0.67	6.4
С фильтрацией + dedup	25k	0.68	6.5

Пет-проект для закрепления

Задача: Сгенерировать synthetic датасет для instruction tuning модели на тему «Python для анализа данных».

Инструменты: Python, openai (или API любой LLM), библиотека distilabel (опционально).

Шаги:

Создать seed-пул из 20 инструкций (например, «Напиши код для чтения CSV», «Объясни, как сделать pivot table»).
Использовать Self-Instruct: GPT-4 генерирует 200 инструкций на основе seed.
Для каждой инструкции GPT-4 генерирует ответ.
Фильтр: удалить дубликаты (MinHash), отбросить пары с длиной инструкции < 10 символов.
Фильтр LLM-as-judge (та же модель оценивает по шкале от 1 до 5, порог 4).
Сохранить полученный датасет в формате JSONL.
(Опционально) Fine-tune небольшую модель (например, Llama-3-8B) на этих данных и сравнить производительность на нескольких задачах до и после.

Ожидаемый результат: 100–150 качественных пар, которые можно использовать для улучшения способности модели отвечать на вопросы по Python.

Связь с другими вопросами

Вопрос	Тема
100	Data Augmentation и генерация синтетических данных
150	Fine-tuning LLM: методы и советы
200	Instruction Tuning vs Prompt Engineering
250	Оценка качества датасетов для обучения
300	Метрики достоверности и безопасности ответов

Краткий тезис

1. Термины: Synthetic data и Instruction tuning

Synthetic data — данные, созданные алгоритмически, а не собранные из реальных взаимодействий. Позволяют быстро получить размеченные датасеты для задач, где трудно собрать реальные примеры.
Instruction tuning — этап fine-tuning LLM, при котором модель обучается следовать инструкциям на парах «промпт → ответ». Цель — улучшить способность обобщать на новые задачи (zero-shot generalization).

2. Self-Instruct: генерация инструкций через саму модель

Задать seed-пул — небольшой набор ручных инструкций (например, «Напиши эссе о кошках», «Переведи на французский»).
Из seed-пула случайно выбирают несколько инструкций и просят LLM сгенерировать новые (промпт вида: «Придумай новую задачу, похожую на эти примеры»).
Сгенерированные инструкции фильтруют (убирают дубликаты, неинформативные, слишком простые).
Для каждой инструкции LLM генерирует ответ (иногда вывод рассуждения).
Повторяют итерации, получая тысячи пар.

Пример промпта (упрощённо):

Ты — помощник. Вот несколько примеров инструкций:
1. Объясни разницу между машинным обучением и глубоким обучением.
2. Напиши код на Python для сортировки списка.
Придумай 5 новых инструкций, которые могут быть полезны пользователю.

3. Evol-Instruct: эволюционное усложнение инструкций (WizardLM)

Evol-Instruct (Xu et al., 2023) — метод, который последовательно усложняет начальные инструкции через пять типов мутаций:

Add constraints («добавь условие» — «...используя только 100 слов»)
Deepening («углуби» — «...и приведи пример из реальной жизни»)
Concretizing («конкретизируй» — «...расскажи про метод градиентного спуска, а не про обучение в целом»)
Increase reasoning («увеличь рассуждения» — «...объясни пошагово»)
Complicate input («усложни вход» — «...с добавлением таблицы данных»)

Таблица сравнения Self-Instruct vs Evol-Instruct

Характеристика	Self-Instruct	Evol-Instruct
Источник инструкций	Seed-пул + генерация	Seed + мутации
Разнообразие	Среднее	Высокое (за счёт эволюции)
Сложность инструкций	Фиксированная	Растёт от шага к шагу
Качество ответов	Может страдать	Ответы подстраиваются под усложнение
Вычислительные затраты	Низкие	Выше (несколько итераций)

4. Русскоязычные инструкции для Self-Instruct

Пример промпта для генерации инструкций по категории:

prompt_ru = """
Ты — ассистент, который генерирует разнообразные инструкции на русском языке.
Сгенерируй инструкцию для следующей категории: {category}
Требования:
- Инструкция должна быть на русском языке
- Задача должна требовать рассуждения или использования знаний
- Избегай простых вопросов типа "что такое X"
Инструкция:"""

Примеры категорий с культурной спецификой:

"Русская литература XIX века"
"Советская история и искусство"
"Кулинарные рецепты традиционных блюд"
"Правила русского языка и орфографии"
"Бытовые задачи (налоговая, ЖКХ, документы)"

5. Другие методы генерации synthetic data

Backtranslation — берут ответы и просят LLM придумать к ним инструкцию (обратный процесс). Полезен, когда есть корпус хороших ответов, но нет инструкций.
Data augmentation — модифицируют существующие инструкции (замена синонимов, перефразирование, объединение нескольких задач).
Chain-of-Thought generation — генерируют не только ответ, но и цепочку рассуждений для задачи, требующей логики.
Использование сильной LLM-оракула — прямое задание GPT-4 или Claude: «Сгенерируй 20 вопросов по теме {domain} с подробными ответами». Это даёт высокое качество, но дорого.

6. Фильтрация и контроль качества

Сырые synthetic данные содержат ошибки, нелогичные инструкции, повторы. Фильтрация обязательна. Методы:

Rule-based фильтрация: удаление инструкций короче N символов, содержащих нецензурную лексику, неправильную пунктуацию, шаблонные фразы.
Deduplication (дедупликация): Jaccard similarity, MinHash для удаления семантически одинаковых пар.
LLM-as-a-judge: просим отдельную модель (или ту же) оценить качество каждой пары по шкале (1-5) и отбрасываем низкие баллы. Критерии: полезность, понятность, сложность, отсутствие галлюцинаций.
Reward model (модель вознаграждения) — обученный на человеческих предпочтениях классификатор, который предсказывает, насколько хорош ответ. Отсеиваем пары с низкими скорами.

Пример простой фильтрации на Python

def filter_low_quality(pairs, min_length=10, min_score=3):
    filtered = []
    for instruction, response in pairs:
        if len(instruction) < min_length or len(response) < min_length:
            continue
        # предположим, есть функция judge_model.predict -> 1-5
        score = judge_model.predict(instruction, response)
        if score >= min_score:
            filtered.append((instruction, response))
    return filtered

7. Пайплайн генерации: полный цикл

Типовой пайплайн для synthetic data:

Domain selection — выбрать область (медицина, юриспруденция, код).
Seed creation — 50–100 вручную написанных инструкций высокого качества.
Expansion — Self-Instruct / Evol-Instruct / промпт GPT-4 порождает 10–100k новых инструкций.
Response generation — для каждой инструкции LLM генерирует ответ (иногда несколько вариантов).
Filtering — дедупликация, проверка длины, LLM-as-judge, удаление опасных инструкций.
Balancing — контроль количества задач каждого типа (classification, generation, reasoning).
Fine-tuning — дообучение модели на отфильтрованном наборе.

8. Практические соображения

Качество vs количество: лучше 10k отфильтрованных примеров, чем 100k мусора.
Дороговизна: вызовы GPT-4 для генерации и оценки стоят денег. Можно использовать opensource модели (Mistral, Llama) для дешёвой генерации и только оценку через сильную модель.
Домен: synthetic данные для общего чата и для специализированной области (например, юридические консультации) требуют разного seed и фильтрации.
Перекосы: если модель-генератор имеет bias, он перейдёт в synthetic data. Нужно проверять на чувствительные темы.
Итеративное улучшение: после fine-tuning на synthetic данных можно оценить модель на реальных задачах и дополнить dataset проблемными случаями (hard negative mining).

9. Инструменты и библиотеки

Argilla — платформа для аннотации и фильтрации synthetic data, встроенные pipeline.
Distilabel (от Argilla) — библиотека для синтеза данных с поддержкой Self-Instruct, Evol-Instruct, фильтрации.
Alpaca-LoRA — знаменитый датасет из 52k synthetic инструкций, сгенерированных через Self-Instruct из seed 175 (использовали text-davinci-003).
LIMA — подход с минимальным количеством (1000) тщательно отобранных синтетических пар, показал, что качество важнее количества.
InstructLab — фреймворк IBM для генерации synthetic data с участием сообщества.

Пример кода с использованием OpenAI API (упрощённо):

import openai

def generate_synthetic(domain, num_examples=10):
    prompt = f"""
    Ты — эксперт в {domain}. Сгенерируй {num_examples} разнообразных инструкций 
    для пользователей, которые хотят узнать что-то по этой теме. 
    Для каждой инструкции напиши подробный ответ.
    Формат: 
    Инструкция: ... 
    Ответ: ...
    """
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.8
    )
    text = response["choices"][0]["message"]["content"]
    # парсинг инструкций и ответов
    return parse_to_pairs(text)

10. Оценка качества synthetic data

Таблица: влияние фильтрации

Dataset	Размер	MMLU (acc)	MT-Bench (score)
Без фильтрации	50k	0.62	5.8
С фильтрацией (LLM-as-judge)	30k	0.67	6.4
С фильтрацией + dedup	25k	0.68	6.5

Пет-проект для закрепления

Задача: Сгенерировать synthetic датасет для instruction tuning модели на тему «Python для анализа данных».

Инструменты: Python, openai (или API любой LLM), библиотека distilabel (опционально).

Шаги:

Создать seed-пул из 20 инструкций (например, «Напиши код для чтения CSV», «Объясни, как сделать pivot table»).
Использовать Self-Instruct: GPT-4 генерирует 200 инструкций на основе seed.
Для каждой инструкции GPT-4 генерирует ответ.
Фильтр: удалить дубликаты (MinHash), отбросить пары с длиной инструкции < 10 символов.
Фильтр LLM-as-judge (та же модель оценивает по шкале от 1 до 5, порог 4).
Сохранить полученный датасет в формате JSONL.
(Опционально) Fine-tune небольшую модель (например, Llama-3-8B) на этих данных и сравнить производительность на нескольких задачах до и после.

Связь с другими вопросами

Вопрос	Тема
100	Data Augmentation и генерация синтетических данных
150	Fine-tuning LLM: методы и советы
200	Instruction Tuning vs Prompt Engineering
250	Оценка качества датасетов для обучения
300	Метрики достоверности и безопасности ответов

Как вы генерируете synthetic данные для instruction tuning?

Краткий тезис

1. Термины: Synthetic data и Instruction tuning

2. Self-Instruct: генерация инструкций через саму модель

3. Evol-Instruct: эволюционное усложнение инструкций (WizardLM)

4. Русскоязычные инструкции для Self-Instruct

5. Другие методы генерации synthetic data

6. Фильтрация и контроль качества

7. Пайплайн генерации: полный цикл

8. Практические соображения

9. Инструменты и библиотеки

10. Оценка качества synthetic data

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы генерируете synthetic данные для instruction tuning?

Краткий тезис

1. Термины: Synthetic data и Instruction tuning

2. Self-Instruct: генерация инструкций через саму модель

3. Evol-Instruct: эволюционное усложнение инструкций (WizardLM)

4. Русскоязычные инструкции для Self-Instruct

5. Другие методы генерации synthetic data

6. Фильтрация и контроль качества

7. Пайплайн генерации: полный цикл

8. Практические соображения

9. Инструменты и библиотеки

10. Оценка качества synthetic data

Пет-проект для закрепления

Связь с другими вопросами

Навигация