Как вы генерируете synthetic данные для instruction tuning?

Q: 1. Что такое synthetic data и зачем он нужен для instruction tuning

- Расширить обучающий набор без ручной разметки, которая дорога и медленна. - Покрыть редкие сценарии и [[Вики/edge cases\|краевые случаи]], которые сложно собрать из реальных диалогов. - Контролировать [[Вики/probability distribution\|распределение]] тем, сложности и стилей ответов.

Q: 2. Self-Instruct: генерация инструкций и ответов одной моделью

1. [[Вики/seed examples\|Seed-инструкции]] — небольшой набор (например, 175) вручную написанных примеров. 2. [[Вики/generation\|Генерация]] инструкций — [[Вики/LLM\|LLM]] получает [[Вики/seed examples\|seed-примеры]] и генерирует новые инструкции (например, «Напиши рецепт борща»).

Q: 3. Evol-Instruct: мутация инструкций для усложнения

- Усложнение — добавляет [[Вики/constraints\|ограничения]] (например, «используй не более 50 слов»). - Конкретизация — заменяет общие слова на конкретные (например, «животное» → «собака породы хаски»). - Добавление [[Вики/constraints\|constraint]] — требует определённого формата ответа (таблица, [[Вики/XML\|JSON]], список).

Q: 4. Magpie: диалоги модели с собой

1. Модели даётся [[Вики/промпт агента\|системный промпт]]: «Ты — [[Вики/multi-tenant\|пользователь]], который задаёт вопросы ассистенту». 2. [[Вики/model\|Модель]] генерирует сообщение пользователя. 3. Затем [[Вики/model\|модель]] переключается на [[Вики/Role\|роль]] ассистента и генерирует ответ.

Q: 5. Другие методы генерации synthetic data

- **[[Вики/Reverse Instruction\|Обратная инструкция]] ([[Вики/Reverse Instruction\|Reverse Instruction]])**: из текста (например, статьи) генерируется [[Вики/Prompt engineering\|инструкция]], на которую этот текст является ответом. - [[Вики/generation\|Генерация]] на основе seed-тем: задаётся список тем, для каждой [[Вики/GPT-4o\|LLM]] генерирует инструкцию и ответ.

Q: 6. Проверка качества: LLM-as-judge и фильтрация

Сгенерированные данные содержат [[Вики/Noise\|шум]]. Обязательный этап — **[[Вики/Filtering\|фильтрация]]** с помощью [[Вики/LLM-as-Judge\|LLM-as-judge]] (другая [[Вики/GPT-4o\|LLM]], оценивающая качество). - [[Вики/Prompt engineering\|Инструкция]] понятна (чёткая, однозначная) - Ответ корректен (фактически верен, релевантен)

Q: 7. Объём данных: сколько нужно?

| Объём | Применимость | |-------|-------------| | 1k–5k | Минимальный набор для экспериментов, но модель может не обобщать. | | 10k–50k | Достаточно для большинства задач (чат-боты, QA, суммаризация). | | 50k–100k | Хорошо для сложных сценариев (многошаговые диалоги, инструменты). |

Q: 8. Инструменты и библиотеки

Краткий тезис

Synthetic data (синтетические данные) для instruction tuning (дообучения по инструкциям) создаются с помощью LLM, которая сама генерирует пары «инструкция — ответ». Основные методы: Self-Instruct (генерация инструкций и ответов одной моделью), Evol-Instruct (мутация инструкций для усложнения) и Magpie (диалоги модели с собой). Ключевой этап — фильтрация качества через LLM-as-judge, чтобы отсеять нерелевантные или некорректные примеры. Оптимальный объём — 10k–100k инструкций, достаточный для большинства задач.

1. Что такое synthetic data и зачем он нужен для instruction tuning

Synthetic data — это искусственно сгенерированные данные, имитирующие реальные примеры. В контексте instruction tuning (дообучение LLM на наборе инструкций и ожидаемых ответов) синтетические данные позволяют:

Расширить обучающий набор без ручной разметки, которая дорога и медленна.
Покрыть редкие сценарии и краевые случаи, которые сложно собрать из реальных диалогов.
Контролировать распределение тем, сложности и стилей ответов.

Instruction tuning превращает базовую LLM в ассистента, способного следовать инструкциям. Без качественных данных модель будет плохо понимать, что от неё хотят.

2. Self-Instruct: генерация инструкций и ответов одной моделью

Self-Instruct — метод, предложенный в одноимённой статье (2022). Процесс:

Seed-инструкции — небольшой набор (например, 175) вручную написанных примеров.
Генерация инструкций — LLM получает seed-примеры и генерирует новые инструкции (например, «Напиши рецепт борща»).
Генерация ответов — для каждой инструкции LLM генерирует ответ.
Фильтрация — удаляются дубликаты, инструкции без смысла, слишком короткие ответы.
Итерация — процесс повторяется, пока не наберётся нужное количество.

Пример кода (упрощённый):

import openai

def generate_instruction(seed_examples):
    prompt = "Сгенерируй новую инструкцию, похожую на эти:\n" + "\n".join(seed_examples)
    response = openai.ChatCompletion.create(model="gpt-4", messages=[{"role": "user", "content": prompt}])
    return response.choices[0].message.content

def generate_response(instruction):
    response = openai.ChatCompletion.create(model="gpt-4", messages=[{"role": "user", "content": instruction}])
    return response.choices[0].message.content

Проблемы Self-Instruct

Модель может генерировать тривиальные или повторяющиеся инструкции.
Качество ответов ограничено возможностями самой модели.

3. Evol-Instruct: мутация инструкций для усложнения

Evol-Instruct (из WizardLM) решает проблему однообразия. Вместо генерации с нуля, он мутирует существующие инструкции:

Усложнение — добавляет ограничения (например, «используй не более 50 слов»).
Конкретизация — заменяет общие слова на конкретные (например, «животное» → «собака породы хаски»).
Добавление constraint — требует определённого формата ответа (таблица, JSON, список).

Этапы

Берётся базовая инструкция.
LLM получает промпт: «Усложни эту инструкцию, добавив дополнительное требование».
Генерируется новая инструкция.
Для неё генерируется ответ.
Фильтрация: проверяется, что новая инструкция действительно сложнее (LLM-as-judge).

Пример мутации

Исходная: «Напиши стихотворение о зиме».
Мутированная: «Напиши стихотворение о зиме в стиле хайку, используя только слова, начинающиеся на букву "с"».

Преимущество данные становятся более разнообразными и сложными, что улучшает способность модели следовать сложным инструкциям.

4. Magpie: диалоги модели с собой

Magpie (2024) — метод, при котором модель генерирует диалоги между пользователем и ассистентом, играя обе роли. Процесс:

Модели даётся системный промпт: «Ты — пользователь, который задаёт вопросы ассистенту».
Модель генерирует сообщение пользователя.
Затем модель переключается на роль ассистента и генерирует ответ.
Шаги повторяются, создавая многошаговый диалог.

Пример:

User: Как приготовить пасту карбонара?
Assistant: Для этого вам понадобятся: спагетти, яйца, бекон, пармезан...
User: А можно без бекона?
Assistant: Да, можно заменить на грибы или тофу...

Преимущество диалоги более естественны, чем изолированные инструкции, и лучше учат модель контексту.

5. Другие методы генерации synthetic data

Обратная инструкция (Reverse Instruction): из текста (например, статьи) генерируется инструкция, на которую этот текст является ответом.
Генерация на основе seed-тем: задаётся список тем, для каждой LLM генерирует инструкцию и ответ.
Data Augmentation через парафраз: существующие инструкции переписываются с сохранением смысла.

6. Проверка качества: LLM-as-judge и фильтрация

Сгенерированные данные содержат шум. Обязательный этап — фильтрация с помощью LLM-as-judge (другая LLM, оценивающая качество).

Критерии оценки

Инструкция понятна (чёткая, однозначная)
Ответ корректен (фактически верен, релевантен)
Ответ полный (не слишком короткий, не уходит в сторону)
Нет токсичности или предвзятости

Пример промпта для judge

Оцени инструкцию и ответ по шкале от 0 до 1 по трём критериям:
1. Ясность инструкции
2. Корректность ответа
3. Полнота ответа
Верни JSON: {"clarity": 0.9, "correctness": 0.8, "completeness": 0.7}

Фильтрация оставляем только примеры со средним баллом >0.8. Можно также использовать rule-based фильтры (длина, наличие ключевых слов).

7. Объём данных: сколько нужно?

Объём	Применимость
1k–5k	Минимальный набор для экспериментов, но модель может не обобщать.
10k–50k	Достаточно для большинства задач (чат-боты, QA, суммаризация).
50k–100k	Хорошо для сложных сценариев (многошаговые диалоги, инструменты).
>100k	Избыточно, если данные однообразны; лучше сфокусироваться на качестве.

Правило 10k–100k инструкций — золотая середина. Качество важнее количества: 10k отфильтрованных примеров лучше 100k сырых.

8. Инструменты и библиотеки

datasets (Hugging Face) — хранение и загрузка synthetic data.
trl (Transformer Reinforcement Learning) — обучение с SFT (supervised fine-tuning).
Axolotl — фреймворк для fine-tuning, поддерживает synthetic data.
OpenAI / Anthropic API — генерация данных (осторожно с затратами).
LangChain — пайплайны генерации и фильтрации.

Пример пайплайна

from datasets import Dataset
import openai

# Генерация 1000 инструкций через Self-Instruct
instructions = []
for _ in range(1000):
    instr = generate_instruction(seed_examples)
    resp = generate_response(instr)
    instructions.append({"instruction": instr, "response": resp})

# Фильтрация через judge
filtered = []
for item in instructions:
    score = judge(item["instruction"], item["response"])
    if score > 0.8:
        filtered.append(item)

dataset = Dataset.from_list(filtered)
dataset.save_to_disk("synthetic_data")

9. Best practices

Итеративное улучшение: сгенерируйте первую партию, обучите модель, протестируйте на реальных запросах, донастройте промпты генерации.
Баланс разнообразия: следите, чтобы не было перекоса в одну тему (например, только кулинария). Используйте seed-темы из разных доменов.
Контроль сложности: смешивайте простые и сложные инструкции, чтобы модель училась на всём спектре.
Избегайте галлюцинаций: если ответ содержит факты, проверяйте их через внешние источники (например, Wikipedia API).
Документируйте процесс: фиксируйте промпты, версии моделей, параметры фильтрации — это упростит воспроизводимость.

10. Ограничения и риски

Галлюцинации в ответах: модель может генерировать неверные факты, которые затем будут усилены при обучении.
Bias (предвзятость): если seed-данные содержат стереотипы, synthetic data их унаследует.
Переобучение на стиль генерации: модель может научиться имитировать «синтетический» стиль, а не реальные диалоги.
Затраты: генерация 100k примеров через GPT-4 может стоить сотни долларов.
Отсутствие обратной связи: synthetic data не содержит информации о том, был ли ответ полезен пользователю (как в RLHF).

Пет-проект для закрепления

Задача Создать датасет synthetic data для дообучения модели-ассистента, специализирующегося на помощи в написании кода на Python.

Инструменты Python, OpenAI API, Hugging Face datasets, trl.

Шаги:

Соберите 50 seed-примеров: пары «инструкция — код» (например, «Напиши функцию для сортировки списка» → код).
Реализуйте Self-Instruct: используйте GPT-4 для генерации новых инструкций и ответов (кода). Ограничьте темы: алгоритмы, работа с файлами, API.
Примените Evol-Instruct: для каждой инструкции попросите GPT-4 усложнить её (добавить обработку ошибок, оптимизацию).
Отфильтруйте через LLM-as-judge: проверьте, что код компилируется (запустите в песочнице) и соответствует инструкции.
Сохраните датасет в формате Hugging Face Datasets.
Обучите небольшую модель (например, Phi-3) на 5000 примерах с помощью SFT.
Протестируйте: задайте модели 10 новых вопросов по коду и оцените качество ответов.

Ожидаемый результат Рабочий пайплайн генерации synthetic data, готовый датасет и дообученная модель, способная писать простые функции по инструкции.

Связь с другими вопросами

Вопрос	Тема
515	Как оценивать качество synthetic data?
516	Как fine-tune LLM на synthetic data?
517	Какие методы data augmentation для LLM существуют?
518	В чём разница между instruction tuning и RLHF?
519	Как работает Self-Instruct на практике?

Краткий тезис

1. Что такое synthetic data и зачем он нужен для instruction tuning

Расширить обучающий набор без ручной разметки, которая дорога и медленна.
Покрыть редкие сценарии и краевые случаи, которые сложно собрать из реальных диалогов.
Контролировать распределение тем, сложности и стилей ответов.

2. Self-Instruct: генерация инструкций и ответов одной моделью

Self-Instruct — метод, предложенный в одноимённой статье (2022). Процесс:

Seed-инструкции — небольшой набор (например, 175) вручную написанных примеров.
Генерация инструкций — LLM получает seed-примеры и генерирует новые инструкции (например, «Напиши рецепт борща»).
Генерация ответов — для каждой инструкции LLM генерирует ответ.
Фильтрация — удаляются дубликаты, инструкции без смысла, слишком короткие ответы.
Итерация — процесс повторяется, пока не наберётся нужное количество.

Пример кода (упрощённый):

import openai

def generate_instruction(seed_examples):
    prompt = "Сгенерируй новую инструкцию, похожую на эти:\n" + "\n".join(seed_examples)
    response = openai.ChatCompletion.create(model="gpt-4", messages=[{"role": "user", "content": prompt}])
    return response.choices[0].message.content

def generate_response(instruction):
    response = openai.ChatCompletion.create(model="gpt-4", messages=[{"role": "user", "content": instruction}])
    return response.choices[0].message.content

Проблемы Self-Instruct

Модель может генерировать тривиальные или повторяющиеся инструкции.
Качество ответов ограничено возможностями самой модели.

3. Evol-Instruct: мутация инструкций для усложнения

Evol-Instruct (из WizardLM) решает проблему однообразия. Вместо генерации с нуля, он мутирует существующие инструкции:

Усложнение — добавляет ограничения (например, «используй не более 50 слов»).
Конкретизация — заменяет общие слова на конкретные (например, «животное» → «собака породы хаски»).
Добавление constraint — требует определённого формата ответа (таблица, JSON, список).

Этапы

Берётся базовая инструкция.
LLM получает промпт: «Усложни эту инструкцию, добавив дополнительное требование».
Генерируется новая инструкция.
Для неё генерируется ответ.
Фильтрация: проверяется, что новая инструкция действительно сложнее (LLM-as-judge).

Пример мутации

Исходная: «Напиши стихотворение о зиме».
Мутированная: «Напиши стихотворение о зиме в стиле хайку, используя только слова, начинающиеся на букву "с"».

4. Magpie: диалоги модели с собой

Модели даётся системный промпт: «Ты — пользователь, который задаёт вопросы ассистенту».
Модель генерирует сообщение пользователя.
Затем модель переключается на роль ассистента и генерирует ответ.
Шаги повторяются, создавая многошаговый диалог.

Пример:

User: Как приготовить пасту карбонара?
Assistant: Для этого вам понадобятся: спагетти, яйца, бекон, пармезан...
User: А можно без бекона?
Assistant: Да, можно заменить на грибы или тофу...

Преимущество диалоги более естественны, чем изолированные инструкции, и лучше учат модель контексту.

5. Другие методы генерации synthetic data

Обратная инструкция (Reverse Instruction): из текста (например, статьи) генерируется инструкция, на которую этот текст является ответом.
Генерация на основе seed-тем: задаётся список тем, для каждой LLM генерирует инструкцию и ответ.
Data Augmentation через парафраз: существующие инструкции переписываются с сохранением смысла.

6. Проверка качества: LLM-as-judge и фильтрация

Критерии оценки

Инструкция понятна (чёткая, однозначная)
Ответ корректен (фактически верен, релевантен)
Ответ полный (не слишком короткий, не уходит в сторону)
Нет токсичности или предвзятости

Пример промпта для judge

Оцени инструкцию и ответ по шкале от 0 до 1 по трём критериям:
1. Ясность инструкции
2. Корректность ответа
3. Полнота ответа
Верни JSON: {"clarity": 0.9, "correctness": 0.8, "completeness": 0.7}

7. Объём данных: сколько нужно?

Объём	Применимость
1k–5k	Минимальный набор для экспериментов, но модель может не обобщать.
10k–50k	Достаточно для большинства задач (чат-боты, QA, суммаризация).
50k–100k	Хорошо для сложных сценариев (многошаговые диалоги, инструменты).
>100k	Избыточно, если данные однообразны; лучше сфокусироваться на качестве.

8. Инструменты и библиотеки

datasets (Hugging Face) — хранение и загрузка synthetic data.
trl (Transformer Reinforcement Learning) — обучение с SFT (supervised fine-tuning).
Axolotl — фреймворк для fine-tuning, поддерживает synthetic data.
OpenAI / Anthropic API — генерация данных (осторожно с затратами).
LangChain — пайплайны генерации и фильтрации.

Пример пайплайна

from datasets import Dataset
import openai

# Генерация 1000 инструкций через Self-Instruct
instructions = []
for _ in range(1000):
    instr = generate_instruction(seed_examples)
    resp = generate_response(instr)
    instructions.append({"instruction": instr, "response": resp})

# Фильтрация через judge
filtered = []
for item in instructions:
    score = judge(item["instruction"], item["response"])
    if score > 0.8:
        filtered.append(item)

dataset = Dataset.from_list(filtered)
dataset.save_to_disk("synthetic_data")

9. Best practices

Итеративное улучшение: сгенерируйте первую партию, обучите модель, протестируйте на реальных запросах, донастройте промпты генерации.
Баланс разнообразия: следите, чтобы не было перекоса в одну тему (например, только кулинария). Используйте seed-темы из разных доменов.
Контроль сложности: смешивайте простые и сложные инструкции, чтобы модель училась на всём спектре.
Избегайте галлюцинаций: если ответ содержит факты, проверяйте их через внешние источники (например, Wikipedia API).
Документируйте процесс: фиксируйте промпты, версии моделей, параметры фильтрации — это упростит воспроизводимость.

10. Ограничения и риски

Галлюцинации в ответах: модель может генерировать неверные факты, которые затем будут усилены при обучении.
Bias (предвзятость): если seed-данные содержат стереотипы, synthetic data их унаследует.
Переобучение на стиль генерации: модель может научиться имитировать «синтетический» стиль, а не реальные диалоги.
Затраты: генерация 100k примеров через GPT-4 может стоить сотни долларов.
Отсутствие обратной связи: synthetic data не содержит информации о том, был ли ответ полезен пользователю (как в RLHF).

Пет-проект для закрепления

Инструменты Python, OpenAI API, Hugging Face datasets, trl.

Шаги:

Соберите 50 seed-примеров: пары «инструкция — код» (например, «Напиши функцию для сортировки списка» → код).
Реализуйте Self-Instruct: используйте GPT-4 для генерации новых инструкций и ответов (кода). Ограничьте темы: алгоритмы, работа с файлами, API.
Примените Evol-Instruct: для каждой инструкции попросите GPT-4 усложнить её (добавить обработку ошибок, оптимизацию).
Отфильтруйте через LLM-as-judge: проверьте, что код компилируется (запустите в песочнице) и соответствует инструкции.
Сохраните датасет в формате Hugging Face Datasets.
Обучите небольшую модель (например, Phi-3) на 5000 примерах с помощью SFT.
Протестируйте: задайте модели 10 новых вопросов по коду и оцените качество ответов.

Связь с другими вопросами

Вопрос	Тема
515	Как оценивать качество synthetic data?
516	Как fine-tune LLM на synthetic data?
517	Какие методы data augmentation для LLM существуют?
518	В чём разница между instruction tuning и RLHF?
519	Как работает Self-Instruct на практике?

Как вы генерируете synthetic данные для instruction tuning?

Краткий тезис

1. Что такое synthetic data и зачем он нужен для instruction tuning

2. Self-Instruct: генерация инструкций и ответов одной моделью

3. Evol-Instruct: мутация инструкций для усложнения

4. Magpie: диалоги модели с собой

5. Другие методы генерации synthetic data

6. Проверка качества: LLM-as-judge и фильтрация

7. Объём данных: сколько нужно?

8. Инструменты и библиотеки

9. Best practices

10. Ограничения и риски

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы генерируете synthetic данные для instruction tuning?

Краткий тезис

1. Что такое synthetic data и зачем он нужен для instruction tuning

2. Self-Instruct: генерация инструкций и ответов одной моделью

3. Evol-Instruct: мутация инструкций для усложнения

4. Magpie: диалоги модели с собой

5. Другие методы генерации synthetic data

6. Проверка качества: LLM-as-judge и фильтрация

7. Объём данных: сколько нужно?

8. Инструменты и библиотеки

9. Best practices

10. Ограничения и риски

Пет-проект для закрепления

Связь с другими вопросами

Навигация