Как test-time compute связан с RLHF? Можно ли заменить дообучение увеличением времени рассуждения на тесте?
Краткий тезис
Test-time compute и RLHF решают задачу повышения качества ответов модели, но на разных этапах жизненного цикла: test-time scaling увеличивает вычислительные затраты на инференс (больше шагов рассуждения, самокритика, перебор гипотез), а RLHF изменяет веса модели через дообучение на предпочтениях человека. Полная замена RLHF на test-time compute невозможна: RLHF фундаментально корректирует распределение модели, делая её лучше «по умолчанию», тогда как test-time compute — это адаптивная стратегия, которая применима к любой базовой модели. Однако на практике эти подходы взаимодополняют друг друга: RLHF улучшает базовую линию, а test-time scaling помогает на сложных задачах без дополнительного обучения.
2. RLHF: меняет веса модели
Reinforcement Learning from Human Feedback — это этап дообучения, который меняет параметры модели на основе сигнала вознаграждения от предпочтений человека. Процесс включает:
- Сбор демонстраций — люди ранжируют ответы модели на одни и те же запросы.
- Обучение ревард-модели — модель учится предсказывать человеческие предпочтения.
- Оптимизация основной модели (PPO/DPO) — политика (LM) штрафуется за отклонение от ревард-модели и от исходного распределения (KL-регуляризация).
В результате веса модели сдвигаются так, чтобы она с большей вероятностью генерировала ответы, которые люди считают полезными, безвредными, честными. Это фундаментальное изменение поведения — модель становится лучше «по умолчанию» на всех запросах (в пределах домена, на котором её учили).
Важно: RLHF стоит дорого (требует данных от людей и длительного обучения), но выгода окупается на каждом последующем инференсе: модель сразу выдаёт более качественный ответ без дополнительных вычислительных ухищрений.
Также RLHF может решать задачи, которые test-time compute не по зубам: устранение галлюцинаций, снижение токсичности, следование сложным инструкциям. Простое «думать дольше» не уберёт предвзятость модели, если она обучена на предвзятых данных.
3. Компромисс: test-time дороже на инференсе, но не требует переобучения
Сравним два подхода по нескольким измерениям:
| Критерий | Test-time compute | RLHF (дообучение) |
|---|---|---|
| Затраты на разработку | Нулевые (применяется к уже обученной модели) | Высокие: сбор данных, обучение ревард-модели, PPO/DPO |
| Затраты на инференс | Значительно выше (в 5–50x больше FLOPs) | Те же, что у базовой модели |
| Изменение модели | Не меняет веса | Меняет веса навсегда |
| Адаптивность | Можно менять стратегию под задачу (допустим, включать/выключать) | Фиксированное поведение после обучения |
| Гарантии улучшения | Зависит от задачи: на простых может быть лишним, на сложных даёт выигрыш | Улучшает метрики в среднем по всем запросам |
| Масштабируемость | Увеличивается с каждым новым запросом | Требует повторного сбора данных при изменении целей |
Вывод: test-time compute выгоден, когда у вас уже есть хорошая базовая модель, и нужно быстро решать сложные задачи без затрат на новое обучение. RLHF выгоден, когда нужно сделать модель «изначально лучше» на широком классе запросов, и вы готовы инвестировать в дообучение.
4. Часто комбинируют: RLHF улучшает base, test-time scaling для сложных задач
На практике лидеры индустрии (OpenAI, Anthropic, Google) используют оба подхода:
- Base model → SFT (supervised fine-tuning) → RLHF → aligned model (выдаёт хорошие ответы по умолчанию).
- На aligned model дополнительно применяется test-time compute (например, Chain-of-Thought, лучшие из N, рефлексия) для задач, где даже aligned модель может ошибаться (олимпиадные задачи по математике, многошаговое кодирование, юридические консультации).
Пример: OpenAI o1 — это, судя по всему, модель, обученная через RLHF для рассуждения, но сам процесс генерации ответа включает внутренний «мыслительный процесс» (test-time compute). То есть RLHF научил модель как правильно думать (структура рассуждения), а test-time scaling даёт ей время на этот процесс.
Можно ли заменить дообучение увеличением времени рассуждения на тесте?
- Простые задачи — да, часто можно: модель и так знает ответ, нужно лишь «подумать подольше» (найти правильный вариант).
- Задачи, требующие знаний или следования предпочтениям — нет: модель может «думать» сколь угодно долго, но её знания ограничены весами, а предвзятость остаётся. RLHF исправляет это на уровне распределения.
- Гибрид — лучший подход: RLHF устраняет систематические ошибки, test-time compute даёт гибкость для сложных случаев без дорогого переобучения.
5. Пет-проект для закрепления
Задача: Провести эксперимент: взять open-source модель (например, Llama 3 8B) и сравнить качество ответов на вопросы из математического датасета GSM8K при трёх режимах:
- Прямая генерация (без дополнительного compute).
- Test-time compute: генерация 5 вариантов ответа с разными temperature, затем голосование (majority voting).
- RLHF-дообучение (использовать готовую aligned версию модели, например Llama 3 8B Instruct).
Инструменты:
- Hugging Face Transformers, vLLM (для быстрой генерации).
- Dataset: GSM8K.
- Для majority voting: функция проверки ответов (извлечение числа).
- Для RLHF: взять уже aligned версию (не требует собственного дообучения).
Шаги:
- Загрузите модели: base и instruct.
- Для 100 вопросов из GSM8K сгенерируйте ответы тремя способами.
- Посчитайте accuracy.
- Замерьте время инференса и стоимость токенов для второго режима.
- Сделайте выводы: на каких вопросах test-time scaling помог, на каких нет, и как RLHF повлиял на baseline.
Ожидаемый результат:
- Direct generation: accuracy ~50-60% (зависит от модели).
- Test-time compute (5 шагов): accuracy ~65-75%, но время инференса вырастает в 3-6 раз.
- RLHF (Instruct): accuracy ~70-80%, время инференса как у base.
- На сложных вопросах test-time compute даёт дополнительный буст поверх RLHF.
Связь с другими вопросами
| Вопрос | Тема |
|---|---|
| 151 | RLHF: основные принципы, этапы, отличия от SFT |
Навигация
- Предыдущий: 999
- Следующий: —
- Индекс: 00. Индекс разборов zation (DPO) и чем отличается от RLHF?|1001]]
- Индекс: 00. Индекс разборов