Навигация (Obsidian)

- Предыдущий: [[981. Что такое RLHF и из каких этапов он состоит|981]] - Следующий: [[983. Какую роль играет Reward Model в RLHF и как её обучать|983]] - Индекс: [[00. Индекс разборов|00. Индекс разборов]]

Для чего нужен этап Supervised Fine-Tuning (SFT) перед RLHF? Что будет, если его пропустить?

Q: 2. Без SFT: модель генерирует мусор, RM не обучить

1. SFT (сбор данных и донастройка). 2. Обучение [[Вики/Reward Model|Reward Model]] (RM) на предпочтениях людей. 3. Оптимизация политики ([[Вики/PPO|PPO]] или другие алгоритмы) с помощью RM. Если пропустить этап 1, модель на этапе 2 будет генерировать ответы на запросы, которые не соответствуют формату “инструкция → ответ”. RM обучается сравнивать пары ответов (лучший vs худший). Если оба ответа — бессмыслица, человек не сможет выбрать "лучший", а значит, RM не получит сигнала о предпочтениях. Бо

Q: 4. Вывод: SFT обязателен

- SFT — **необходимое условие** для осмысленного RLHF. - Пропуск SFT ведёт к необучаемости RM и нестабильности PPO. - Даже если модель уже обучена на инструкциях (например, chat-версия), донастройка SFT под конкретную задачу RLHF всё равно рекомендуется (см. [[Вики/InstructGPT|InstructGPT]]: этап SFT на демонстрациях).

Q: 5. Пет-проект для закрепления

**Инструменты**: - Python 3.10, [[Вики/PyTorch|PyTorch]] или [[Вики/JAX|JAX]]. - Библиотеки [[Вики/Hugging Face Transformers|transformers]], [[Вики/trl|TRL (Transformer Reinforcement Learning)]]. - Датасет инструкций: [[Виiki/Databricks Dolly 15k|databricks/databricks-dolly-15k]] (SFT) и [[Виiki/Anthropic HH-RLHF|Anthropic/hh-rlhf]] (preferences).

Q: Связь с другими вопросами

| Вопрос | Тема | |--------|------| | 981. Что такое RLHF и из каких этапов он состоит | Общая структура RLHF (SFT → RM → PPO) | ---

Краткий тезис

SFT (контролируемая донастройка) — обязательный промежуточный этап между базовым претренингом и RLHF. Он адаптирует языковую модель к формату диалога/инструкций, давая ей минимальные навыки следования запросам. Без SFT модель не способна генерировать осмысленные ответы, а значит, Reward Model (RM) не сможет корректно оценивать её выходы, и итерации RLHF становятся бессмысленными. SFT не решает задачу выравнивания по предпочтениям, но создаёт необходимую "базу" — без неё RLHF не к чему применять.

2. Без SFT: модель генерирует мусор, RM не обучить

RLHF состоит из трёх этапов:

SFT (сбор данных и донастройка).
Обучение Reward Model (RM) на предпочтениях людей.
Оптимизация политики (PPO или другие алгоритмы) с помощью RM.

Если пропустить этап 1, модель на этапе 2 будет генерировать ответы на запросы, которые не соответствуют формату “инструкция → ответ”. RM обучается сравнивать пары ответов (лучший vs худший). Если оба ответа — бессмыслица, человек не сможет выбрать "лучший", а значит, RM не получит сигнала о предпочтениях. Более того, RM сам может переобучиться на шум.

Практический пример:

Датасет предпочтений содержит 10 000 пар (инструкция, ответ A, ответ B). Если модель без SFT генерирует оба ответа случайно, большинство пар будут неразличимы по качеству.
RM, обученный на таких данных, будет давать случайные награды.
PPO, максимизируя такую награду, уйдёт в вырожденное решение (например, повторение одного слова или токсичный текст).

Эксперименты показывают: даже если взять очень хороший RM (обученный на ответах SFT-модели), но применять его к сырой pretrained модели, PPO не сходится — policy gradient расходится из-за выхода за границы доверительного региона (trust region).

3. RLHF уточняет предпочтения, но не учит с нуля

RLHF решает другую задачу: он сдвигает модель к ответам, которые человек считает более полезными, безопасными или согласованными с ценностями. Однако RLHF не учит модель основам синтаксиса, фактологии или диалоговому формату — всему этому модель должна научиться на SFT.

Сравнение целей:

Этап	Что даёт	Чему не учит
SFT	Формат диалога, следование инструкциям, базовую полезность	Предпочтениям, безопасности, тону
RLHF	Приоритезацию одних ответов над другими, отказ от вредных инструкций	Формату ответа, грамматике, структуре

Без SFT модель может “уйти” в странный режим, когда она формально следует реварду, но ответ вырожден. Например, если RM даёт высокую награду за краткие ответы, модель без SFT может научиться отвечать односложно, даже на сложные вопросы. SFT же закрепляет шаблон "дать развёрнутый, полезный ответ".

4. Вывод: SFT обязателен

SFT — необходимое условие для осмысленного RLHF.
Пропуск SFT ведёт к необучаемости RM и нестабильности PPO.
Даже если модель уже обучена на инструкциях (например, chat-версия), донастройка SFT под конкретную задачу RLHF всё равно рекомендуется (см. InstructGPT: этап SFT на демонстрациях).
В пайплайне alignment SFT не заменяет RLHF, а дополняет его.

5. Пет-проект для закрепления

Задача: Воспроизвести упрощённый пайплайн RLHF на маленькой модели (например, GPT-2 или DistilGPT2). Сравнить качество итоговой модели при наличии и отсутствии SFT.

Инструменты:

Python 3.10, PyTorch или JAX.
Библиотеки transformers, TRL (Transformer Reinforcement Learning).
Датасет инструкций: databricks/databricks-dolly-15k (SFT) и Anthropic/hh-rlhf (preferences).
Для отладки — локальный W&B.

Шаги:

Взять базовую модель (distilgpt2).
Pipeline A (с SFT):
- SFT: дообучить на 2000 примерах из dolly-15k (2 эпохи, lr=1e-5).
- Обучить RM на hh-rlhf (binary classification).
- Запустить PPO (TRL) с RM как reward, 10 шагов.
Pipeline B (без SFT):
- Пропустить SFT, взять distilgpt2 сразу.
- Обучить RM на hh-rlhf, используя ответы model w/o SFT (они будут плохими).
- PPO с этим RM.
Сравнить Reward Score на валидации (среднее значение RM после PPO) и Perplexity на тестовых инструкциях.

Ожидаемый результат:

Pipeline A покажет рост reward (+0.5–1.0) и снижение perplexity после PPO.
Pipeline B: reward не растёт или падает, perplexity взлетает (генерация хаоса).
Дополнительно: субъективная оценка ответов (например, через LLM-as-judge).

Связь с другими вопросами

Вопрос	Тема
981. Что такое RLHF и из каких этапов он состоит	Общая структура RLHF (SFT → RM → PPO)