RLHF

aliases: ["Reinforcement Learning from Human Feedback", "обучение с подкреплением на основе человеческой обратной связи"] tags: [wiki, термин, rlhf]

RLHF

Определение

RLHF (Reinforcement Learning from Human Feedback) — метод тонкой настройки больших языковых моделей, который использует предпочтения людей для улучшения качества генерации. Процесс включает три этапа: обучение с учителем (SFT), обучение модели вознаграждения (Reward Model) на парных сравнениях ответов и оптимизацию политики (например, PPO) для максимизации вознаграждения. RLHF позволяет модели выдавать более релевантные, безопасные и соответствующие человеческим ожиданиям ответы.

Где встречается

Навигация