Aivaro
  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Материалы сообщества
  • Тесты
  • Поиск
✈Telegram @ai_varo
RUEN中文
…
Оглавление/Вопросы/#982

Для чего нужен этап Supervised Fine-Tuning (SFT) перед RLHF? Что будет, если его пропустить?

Краткий тезис

SFT (контролируемая донастройка) — обязательный промежуточный этап между базовым претренингом и RLHF. Он адаптирует языковую модель к формату диалога/инструкций, давая ей минимальные навыки следования запросам. Без SFT модель не способна генерировать осмысленные ответы, а значит, Reward Model (RM) не сможет корректно оценивать её выходы, и итерации RLHF становятся бессмысленными. SFT не решает задачу выравнивания по предпочтениям, но создаёт необходимую "базу" — без неё RLHF не к чему применять.

2. Без SFT: модель генерирует мусор, RM не обучить

RLHF состоит из трёх этапов:

  1. SFT (сбор данных и донастройка).
  2. Обучение Reward Model (RM) на предпочтениях людей.
  3. Оптимизация политики (PPO или другие алгоритмы) с помощью RM.

Если пропустить этап 1, модель на этапе 2 будет генерировать ответы на запросы, которые не соответствуют формату “инструкция → ответ”. RM обучается сравнивать пары ответов (лучший vs худший). Если оба ответа — бессмыслица, человек не сможет выбрать "лучший", а значит, RM не получит сигнала о предпочтениях. Более того, RM сам может переобучиться на шум.

Практический пример:

  • Датасет предпочтений содержит 10 000 пар (инструкция, ответ A, ответ B). Если модель без SFT генерирует оба ответа случайно, большинство пар будут неразличимы по качеству.
  • RM, обученный на таких данных, будет давать случайные награды.
  • PPO, максимизируя такую награду, уйдёт в вырожденное решение (например, повторение одного слова или токсичный текст).

Эксперименты показывают: даже если взять очень хороший RM (обученный на ответах SFT-модели), но применять его к сырой pretrained модели, PPO не сходится — policy gradient расходится из-за выхода за границы доверительного региона (trust region).


3. RLHF уточняет предпочтения, но не учит с нуля

RLHF решает другую задачу: он сдвигает модель к ответам, которые человек считает более полезными, безопасными или согласованными с ценностями. Однако RLHF не учит модель основам синтаксиса, фактологии или диалоговому формату — всему этому модель должна научиться на SFT.

Сравнение целей:

ЭтапЧто даётЧему не учит
SFTФормат диалога, следование инструкциям, базовую полезностьПредпочтениям, безопасности, тону
RLHFПриоритезацию одних ответов над другими, отказ от вредных инструкцийФормату ответа, грамматике, структуре

Без SFT модель может “уйти” в странный режим, когда она формально следует реварду, но ответ вырожден. Например, если RM даёт высокую награду за краткие ответы, модель без SFT может научиться отвечать односложно, даже на сложные вопросы. SFT же закрепляет шаблон "дать развёрнутый, полезный ответ".


4. Вывод: SFT обязателен

  • SFT — необходимое условие для осмысленного RLHF.
  • Пропуск SFT ведёт к необучаемости RM и нестабильности PPO.
  • Даже если модель уже обучена на инструкциях (например, chat-версия), донастройка SFT под конкретную задачу RLHF всё равно рекомендуется (см. InstructGPT: этап SFT на демонстрациях).
  • В пайплайне alignment SFT не заменяет RLHF, а дополняет его.

5. Пет-проект для закрепления

Задача: Воспроизвести упрощённый пайплайн RLHF на маленькой модели (например, GPT-2 или DistilGPT2). Сравнить качество итоговой модели при наличии и отсутствии SFT.

Инструменты:

  • Python 3.10, PyTorch или JAX.
  • Библиотеки transformers, TRL (Transformer Reinforcement Learning).
  • Датасет инструкций: databricks/databricks-dolly-15k (SFT) и Anthropic/hh-rlhf (preferences).
  • Для отладки — локальный W&B.

Шаги:

  1. Взять базовую модель (distilgpt2).
  2. Pipeline A (с SFT):
    • SFT: дообучить на 2000 примерах из dolly-15k (2 эпохи, lr=1e-5).
    • Обучить RM на hh-rlhf (binary classification).
    • Запустить PPO (TRL) с RM как reward, 10 шагов.
  3. Pipeline B (без SFT):
    • Пропустить SFT, взять distilgpt2 сразу.
    • Обучить RM на hh-rlhf, используя ответы model w/o SFT (они будут плохими).
    • PPO с этим RM.
  4. Сравнить Reward Score на валидации (среднее значение RM после PPO) и Perplexity на тестовых инструкциях.

Ожидаемый результат:

  • Pipeline A покажет рост reward (+0.5–1.0) и снижение perplexity после PPO.
  • Pipeline B: reward не растёт или падает, perplexity взлетает (генерация хаоса).
  • Дополнительно: субъективная оценка ответов (например, через LLM-as-judge).

Связь с другими вопросами

ВопросТема
981. Что такое RLHF и из каких этапов он состоитОбщая структура RLHF (SFT → RM → PPO)

Навигация

  • Предыдущий: 981
  • Следующий: 983
  • Индекс: 00. Индекс разборов