Aivaro
  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Материалы сообщества
  • Тесты
  • Поиск
✈Telegram @ai_varo
RUEN中文
…
Оглавление/Вопросы/#1000

Как test-time compute связан с RLHF? Можно ли заменить дообучение увеличением времени рассуждения на тесте?

Краткий тезис

Test-time compute и RLHF решают задачу повышения качества ответов модели, но на разных этапах жизненного цикла: test-time scaling увеличивает вычислительные затраты на инференс (больше шагов рассуждения, самокритика, перебор гипотез), а RLHF изменяет веса модели через дообучение на предпочтениях человека. Полная замена RLHF на test-time compute невозможна: RLHF фундаментально корректирует распределение модели, делая её лучше «по умолчанию», тогда как test-time compute — это адаптивная стратегия, которая применима к любой базовой модели. Однако на практике эти подходы взаимодополняют друг друга: RLHF улучшает базовую линию, а test-time scaling помогает на сложных задачах без дополнительного обучения.

2. RLHF: меняет веса модели

Reinforcement Learning from Human Feedback — это этап дообучения, который меняет параметры модели на основе сигнала вознаграждения от предпочтений человека. Процесс включает:

  1. Сбор демонстраций — люди ранжируют ответы модели на одни и те же запросы.
  2. Обучение ревард-модели — модель учится предсказывать человеческие предпочтения.
  3. Оптимизация основной модели (PPO/DPO) — политика (LM) штрафуется за отклонение от ревард-модели и от исходного распределения (KL-регуляризация).

В результате веса модели сдвигаются так, чтобы она с большей вероятностью генерировала ответы, которые люди считают полезными, безвредными, честными. Это фундаментальное изменение поведения — модель становится лучше «по умолчанию» на всех запросах (в пределах домена, на котором её учили).

Важно: RLHF стоит дорого (требует данных от людей и длительного обучения), но выгода окупается на каждом последующем инференсе: модель сразу выдаёт более качественный ответ без дополнительных вычислительных ухищрений.

Также RLHF может решать задачи, которые test-time compute не по зубам: устранение галлюцинаций, снижение токсичности, следование сложным инструкциям. Простое «думать дольше» не уберёт предвзятость модели, если она обучена на предвзятых данных.


3. Компромисс: test-time дороже на инференсе, но не требует переобучения

Сравним два подхода по нескольким измерениям:

КритерийTest-time computeRLHF (дообучение)
Затраты на разработкуНулевые (применяется к уже обученной модели)Высокие: сбор данных, обучение ревард-модели, PPO/DPO
Затраты на инференсЗначительно выше (в 5–50x больше FLOPs)Те же, что у базовой модели
Изменение моделиНе меняет весаМеняет веса навсегда
АдаптивностьМожно менять стратегию под задачу (допустим, включать/выключать)Фиксированное поведение после обучения
Гарантии улучшенияЗависит от задачи: на простых может быть лишним, на сложных даёт выигрышУлучшает метрики в среднем по всем запросам
МасштабируемостьУвеличивается с каждым новым запросомТребует повторного сбора данных при изменении целей

Вывод: test-time compute выгоден, когда у вас уже есть хорошая базовая модель, и нужно быстро решать сложные задачи без затрат на новое обучение. RLHF выгоден, когда нужно сделать модель «изначально лучше» на широком классе запросов, и вы готовы инвестировать в дообучение.


4. Часто комбинируют: RLHF улучшает base, test-time scaling для сложных задач

На практике лидеры индустрии (OpenAI, Anthropic, Google) используют оба подхода:

  • Base model → SFT (supervised fine-tuning) → RLHF → aligned model (выдаёт хорошие ответы по умолчанию).
  • На aligned model дополнительно применяется test-time compute (например, Chain-of-Thought, лучшие из N, рефлексия) для задач, где даже aligned модель может ошибаться (олимпиадные задачи по математике, многошаговое кодирование, юридические консультации).

Пример: OpenAI o1 — это, судя по всему, модель, обученная через RLHF для рассуждения, но сам процесс генерации ответа включает внутренний «мыслительный процесс» (test-time compute). То есть RLHF научил модель как правильно думать (структура рассуждения), а test-time scaling даёт ей время на этот процесс.

Можно ли заменить дообучение увеличением времени рассуждения на тесте?

  • Простые задачи — да, часто можно: модель и так знает ответ, нужно лишь «подумать подольше» (найти правильный вариант).
  • Задачи, требующие знаний или следования предпочтениям — нет: модель может «думать» сколь угодно долго, но её знания ограничены весами, а предвзятость остаётся. RLHF исправляет это на уровне распределения.
  • Гибрид — лучший подход: RLHF устраняет систематические ошибки, test-time compute даёт гибкость для сложных случаев без дорогого переобучения.

5. Пет-проект для закрепления

Задача: Провести эксперимент: взять open-source модель (например, Llama 3 8B) и сравнить качество ответов на вопросы из математического датасета GSM8K при трёх режимах:

  1. Прямая генерация (без дополнительного compute).
  2. Test-time compute: генерация 5 вариантов ответа с разными temperature, затем голосование (majority voting).
  3. RLHF-дообучение (использовать готовую aligned версию модели, например Llama 3 8B Instruct).

Инструменты:

  • Hugging Face Transformers, vLLM (для быстрой генерации).
  • Dataset: GSM8K.
  • Для majority voting: функция проверки ответов (извлечение числа).
  • Для RLHF: взять уже aligned версию (не требует собственного дообучения).

Шаги:

  1. Загрузите модели: base и instruct.
  2. Для 100 вопросов из GSM8K сгенерируйте ответы тремя способами.
  3. Посчитайте accuracy.
  4. Замерьте время инференса и стоимость токенов для второго режима.
  5. Сделайте выводы: на каких вопросах test-time scaling помог, на каких нет, и как RLHF повлиял на baseline.

Ожидаемый результат:

  • Direct generation: accuracy ~50-60% (зависит от модели).
  • Test-time compute (5 шагов): accuracy ~65-75%, но время инференса вырастает в 3-6 раз.
  • RLHF (Instruct): accuracy ~70-80%, время инференса как у base.
  • На сложных вопросах test-time compute даёт дополнительный буст поверх RLHF.

Связь с другими вопросами

ВопросТема
151RLHF: основные принципы, этапы, отличия от SFT

Навигация

  • Предыдущий: 999
  • Следующий: —
  • Индекс: 00. Индекс разборов zation (DPO) и чем отличается от RLHF?|1001]]
  • Индекс: 00. Индекс разборов