Навигация (Obsidian)

- Предыдущий: [[999. Как собрать preference датасет для задачи reasoning (математика, логика) Важен процесс решения или только финальный отве|999]] - Следующий: — - Индекс: [[00. Индекс разборов]] zation (DPO) и чем отличается от RLHF?|1001]] - Индекс: [[00. Индекс разборов]]

Как test-time compute связан с RLHF? Можно ли заменить дообучение увеличением времени рассуждения на тесте?

Q: Краткий тезис

Test-time compute и [[Вики/RLHF|RLHF]] решают задачу повышения качества ответов модели, но на разных этапах жизненного цикла: test-time scaling увеличивает вычислительные затраты на инференс (больше шагов рассуждения, самокритика, перебор гипотез), а RLHF изменяет веса модели через дообучение на предпочтениях человека. Полная замена RLHF на test-time compute невозможна: RLHF фундаментально корректирует распределение модели, делая её лучше «по умолчанию», тогда как test-time compute — это адаптив

Q: 2. RLHF: меняет веса модели

1. **Сбор демонстраций** — люди ранжируют ответы модели на одни и те же запросы. 2. **Обучение ревард-модели** — модель учится предсказывать человеческие предпочтения. 3. **Оптимизация основной модели (PPO/DPO)** — политика (LM) штрафуется за отклонение от ревард-модели и от исходного распределения (KL-регуляризация).

Q: 3. Компромисс: test-time дороже на инференсе, но не требует переобучения

Сравним два подхода по нескольким измерениям: | Критерий | Test-time compute | RLHF (дообучение) | | --- | --- | --- | | **Затраты на разработку** | Нулевые (применяется к уже обученной модели) | Высокие: сбор данных, обучение ревард-модели, PPO/DPO | | **Затраты на инференс** | Значительно выше (в 5–50x больше FLOPs) | Те же, что у базовой модели |

Q: 5. Пет-проект для закрепления

**[[Вики/Task|Задача]]**: Провести эксперимент: взять open-source модель (например, Llama 3 8B) и сравнить качество ответов на вопросы из математического датасета GSM8K при трёх режимах: 1. Прямая генерация (без дополнительного compute). 2. Test-time compute: генерация 5 вариантов ответа с разными temperature, затем голосование (majority voting).

Q: Связь с другими вопросами

| Вопрос | Тема | | --- | --- | | [[Вопрос 151. Что такое RLHF?|151]] | RLHF: основные принципы, этапы, отличия от SFT | ---

Краткий тезис

Test-time compute и RLHF решают задачу повышения качества ответов модели, но на разных этапах жизненного цикла: test-time scaling увеличивает вычислительные затраты на инференс (больше шагов рассуждения, самокритика, перебор гипотез), а RLHF изменяет веса модели через дообучение на предпочтениях человека. Полная замена RLHF на test-time compute невозможна: RLHF фундаментально корректирует распределение модели, делая её лучше «по умолчанию», тогда как test-time compute — это адаптивная стратегия, которая применима к любой базовой модели. Однако на практике эти подходы взаимодополняют друг друга: RLHF улучшает базовую линию, а test-time scaling помогает на сложных задачах без дополнительного обучения.

2. RLHF: меняет веса модели

Reinforcement Learning from Human Feedback — это этап дообучения, который меняет параметры модели на основе сигнала вознаграждения от предпочтений человека. Процесс включает:

Сбор демонстраций — люди ранжируют ответы модели на одни и те же запросы.
Обучение ревард-модели — модель учится предсказывать человеческие предпочтения.
Оптимизация основной модели (PPO/DPO) — политика (LM) штрафуется за отклонение от ревард-модели и от исходного распределения (KL-регуляризация).

В результате веса модели сдвигаются так, чтобы она с большей вероятностью генерировала ответы, которые люди считают полезными, безвредными, честными. Это фундаментальное изменение поведения — модель становится лучше «по умолчанию» на всех запросах (в пределах домена, на котором её учили).

Важно: RLHF стоит дорого (требует данных от людей и длительного обучения), но выгода окупается на каждом последующем инференсе: модель сразу выдаёт более качественный ответ без дополнительных вычислительных ухищрений.

Также RLHF может решать задачи, которые test-time compute не по зубам: устранение галлюцинаций, снижение токсичности, следование сложным инструкциям. Простое «думать дольше» не уберёт предвзятость модели, если она обучена на предвзятых данных.

3. Компромисс: test-time дороже на инференсе, но не требует переобучения

Сравним два подхода по нескольким измерениям:

Критерий	Test-time compute	RLHF (дообучение)
Затраты на разработку	Нулевые (применяется к уже обученной модели)	Высокие: сбор данных, обучение ревард-модели, PPO/DPO
Затраты на инференс	Значительно выше (в 5–50x больше FLOPs)	Те же, что у базовой модели
Изменение модели	Не меняет веса	Меняет веса навсегда
Адаптивность	Можно менять стратегию под задачу (допустим, включать/выключать)	Фиксированное поведение после обучения
Гарантии улучшения	Зависит от задачи: на простых может быть лишним, на сложных даёт выигрыш	Улучшает метрики в среднем по всем запросам
Масштабируемость	Увеличивается с каждым новым запросом	Требует повторного сбора данных при изменении целей

Вывод: test-time compute выгоден, когда у вас уже есть хорошая базовая модель, и нужно быстро решать сложные задачи без затрат на новое обучение. RLHF выгоден, когда нужно сделать модель «изначально лучше» на широком классе запросов, и вы готовы инвестировать в дообучение.

4. Часто комбинируют: RLHF улучшает base, test-time scaling для сложных задач

На практике лидеры индустрии (OpenAI, Anthropic, Google) используют оба подхода:

Base model → SFT (supervised fine-tuning) → RLHF → aligned model (выдаёт хорошие ответы по умолчанию).
На aligned model дополнительно применяется test-time compute (например, Chain-of-Thought, лучшие из N, рефлексия) для задач, где даже aligned модель может ошибаться (олимпиадные задачи по математике, многошаговое кодирование, юридические консультации).

Пример: OpenAI o1 — это, судя по всему, модель, обученная через RLHF для рассуждения, но сам процесс генерации ответа включает внутренний «мыслительный процесс» (test-time compute). То есть RLHF научил модель как правильно думать (структура рассуждения), а test-time scaling даёт ей время на этот процесс.

Можно ли заменить дообучение увеличением времени рассуждения на тесте?

Простые задачи — да, часто можно: модель и так знает ответ, нужно лишь «подумать подольше» (найти правильный вариант).
Задачи, требующие знаний или следования предпочтениям — нет: модель может «думать» сколь угодно долго, но её знания ограничены весами, а предвзятость остаётся. RLHF исправляет это на уровне распределения.
Гибрид — лучший подход: RLHF устраняет систематические ошибки, test-time compute даёт гибкость для сложных случаев без дорогого переобучения.

5. Пет-проект для закрепления

Задача: Провести эксперимент: взять open-source модель (например, Llama 3 8B) и сравнить качество ответов на вопросы из математического датасета GSM8K при трёх режимах:

Прямая генерация (без дополнительного compute).
Test-time compute: генерация 5 вариантов ответа с разными temperature, затем голосование (majority voting).
RLHF-дообучение (использовать готовую aligned версию модели, например Llama 3 8B Instruct).

Инструменты:

Hugging Face Transformers, vLLM (для быстрой генерации).
Dataset: GSM8K.
Для majority voting: функция проверки ответов (извлечение числа).
Для RLHF: взять уже aligned версию (не требует собственного дообучения).

Шаги:

Загрузите модели: base и instruct.
Для 100 вопросов из GSM8K сгенерируйте ответы тремя способами.
Посчитайте accuracy.
Замерьте время инференса и стоимость токенов для второго режима.
Сделайте выводы: на каких вопросах test-time scaling помог, на каких нет, и как RLHF повлиял на baseline.

Ожидаемый результат:

Direct generation: accuracy ~50-60% (зависит от модели).
Test-time compute (5 шагов): accuracy ~65-75%, но время инференса вырастает в 3-6 раз.
RLHF (Instruct): accuracy ~70-80%, время инференса как у base.
На сложных вопросах test-time compute даёт дополнительный буст поверх RLHF.

Связь с другими вопросами

Вопрос	Тема
151	RLHF: основные принципы, этапы, отличия от SFT