Aivaro
  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Материалы сообщества
  • Тесты
  • Поиск
✈Telegram @ai_varo
RUEN中文
…
Оглавление/Вопросы/#995

Как вы проверяете, что RLHF улучшил модель на целевых задачах, но не сломал общие способности (general capabilities)?

Краткий тезис

RLHF (Reinforcement Learning from Human Feedback) нацелен на улучшение выравнивания модели под конкретные задачи (суммаризация, диалог, генерация инструкций), однако из-за смещения распределения и сжатия пространства состояний существует риск регресса на стандартных бенчмарках общих знаний и рассуждений. Проверка должна включать четыре обязательных этапа: целевой бенчмарк, общий бенчмарк, A/B-тестирование с пользователями и постдеплойный мониторинг дрейфа. Только комбинированный подход гарантирует, что RLHF не только дал прирост на целевых метриках, но и сохранил general capabilities.

-----|---------|-----|------|---|---------------------| | Суммаризация новостей | ROUGE-L | 38.2 | 41.5 | +3.3 | <0.01 | | Генерация инструкций | Win Rate (vs GPT-3.5) | 0.52 | 0.68 | +0.16 | <0.001 |

Важно: если целевой бенчмарк не показывает значимого улучшения, RLHF либо неэффективен, либо reward модель была неверно обучена.


2. General бенчмарки (MMLU, HellaSwag)

Чтобы убедиться, что RLHF не разрушил общие способности, необходимо прогнать модель через набор широко признанных бенчмарков, не связанных с целевой задачей.

Минимальный набор

  • MMLU (massive multitask language understanding) – 57 предметов, проверка фактов и рассуждений.
  • HellaSwag – commonsense reasoning, выбор окончания.
  • TruthfulQA – truthfulness и избегание ложных утверждений.
  • WinoGrande – разрешение местоимений.
  • ARC-Challenge – научные рассуждения.

Процедура

  1. Запустить inference на full validation set для SFT и RLHF.
  2. Сравнить accuracy/EM/f1. Допустимое снижение – не более 1–2 % (в зависимости от модели).
  3. Если падение превышает порог, требуется откат или корректировка процедуры RLHF (например, изменение коэффициента KL-регуляризации).

Пример сравнения

БенчмаркSFTRLHFΔКомментарий
MMLU (5-shot)68.467.8-0.6Допустимо
HellaSwag79.277.5-1.7Требует внимания
TruthfulQA44.143.5-0.6Без изменений

При падении >2 % необходимо провести анализ: не вызвано ли это смещением reward модели, чрезмерной оптимизацией PPO или переобучением под человеческий feedback.


3. A/B-тест с пользователями

Автоматические бенчмарки не всегда отражают реальную пользовательскую оценку. Поэтому следующий этап – онлайн-эксперимент с живыми пользователями.

Дизайн A/B-теста

  • Группы: контроль (SFT) и тест (RLHF).
  • Метрики:
    • Primary: user satisfaction (Likert scale), task success rate.
    • Secondary: время взаимодействия, количество правок, CTR на сгенерированные рекомендации.
  • Длительность: минимум 1–2 недели, до накопления статистической мощности (обычно 5% MDE).

Ключевые риски

  • Холодный старт – пользователи могут быть консервативны, RLHF может улучшить ответы, но субъективно восприниматься как хуже из-за изменения стиля.
  • Интернал валидность – необходимо избежать эффекта новизны и убедиться, что обе группы получают одинаковый фидбек (одинаковая reward модель не используется в самом сервисе).

Пример результата

МетрикаSFTRLHFΔp-value
Satisfaction (1–5)3.84.2+0.4<0.01
Task success rate88%93%+5%<0.05
CTR на ответы (сумм)0.450.47+0.02незнач.

Положительный сдвиг по первичным метрикам при отсутствии значимого падения в General бенчмарках – основной критерий успеха.


4. Мониторинг дрейфа после деплоя

После релиза RLHF-версии мониторинг не прекращается. Общие способности могут деградировать из-за сдвига распределения входных данных или накопления bias в человеческом feedback.

Компоненты мониторинга

  • Автоматические прогоны на общие бенчмарки (еженедельно) – фиксация регрессии.
  • Анализ распределения выходов:
    • KL-дивергенция между ответами SFT и RLHF.
    • Доля ответов с токсичностью (Perplexity по detox-модели).
    • Падение разнообразия (distinct n-gram).
  • Alerting: если accuracy на MMLU падает более чем на 5% от baseline за 2 недели – тригер на дообучение или откат.

Инструменты

  • Дрейф модели можно отслеживать через платформы ML-мониторинга (WhyLabs, Evidently AI).
  • В production разворачиваются A/B-метрики в реальном времени (например, через Splunk или Grafana).

Пет-проект для закрепления

Задача: Реализовать конвейер оценки RLHF-модели, который автоматически прогоняет её через целевой бенчмарк и три общих бенчмарка, а затем генерирует отчёт с Delta-метриками.

Инструменты:

  • Python, Hugging Face Transformers, TRL (для RLHF-моделей).
  • Evaluate library (ROUGE, BLEU, accuracy).
  • Matplotlib/Seaborn для визуализации.
  • Pytest для unit-тестов.

Шаги:

  1. Загрузите SFT-модель и RLHF-модель (можно из открытых весов, например, Llama-2-7B-chat-hf vs Llama-2-7B-hf после PPO).
  2. Определите целевую задачу: суммаризация датасета CNN/DailyMail. Вычислите ROUGE-1/2/L.
  3. Загрузите MMLU, HellaSwag и TruthfulQA (через datasets). Прогоните обе модели, сохраните accuracy в таблицу.
  4. Вычислите Δ по каждой метрике, отметьте значимость (T-test).
  5. Сгенерируйте HTML-отчёт с дашбордом.
  6. Добавьте тест: если падение на MMLU > 2% – тест падает (raise AssertionError).

Ожидаемый результат:

  • Полный пайплайн в одном Python-скрипте, который за 10-15 минут (на small models) выдаёт отчёт в формате:

    | Task          | SFT   | RLHF  | Δ     | Status |
    |---------------|-------|-------|-------|--------|
    | CNN/DM ROUGE-L| 38.2  | 41.5  | +3.3  | 🟢      |
    | MMLU          | 68.4  | 67.8  | -0.6  | 🟢      |
    | HellaSwag     | 79.2  | 77.5  | -1.7  | 🟡      |
    

Вывод: проект покажет, как практическая проверка RLHF защищает от регресса, и что делать при жёлтом/красном статусе.


Связь с другими вопросами

ВопросТема
337Методология оценки, метрики человеческого фидбека

Навигация

  • Предыдущий: 994
  • Следующий: 996
  • Индекс: 00. Индекс разборов