RLHF
aliases: ["Reinforcement Learning from Human Feedback", "обучение с подкреплением на основе человеческой обратной связи"] tags: [wiki, термин, rlhf]
RLHF
Определение
RLHF (Reinforcement Learning from Human Feedback) — метод тонкой настройки больших языковых моделей, который использует предпочтения людей для улучшения качества генерации. Процесс включает три этапа: обучение с учителем (SFT), обучение модели вознаграждения (Reward Model) на парных сравнениях ответов и оптимизацию политики (например, PPO) для максимизации вознаграждения. RLHF позволяет модели выдавать более релевантные, безопасные и соответствующие человеческим ожиданиям ответы.
Где встречается
- 981. ...
- 982. ...
- 985. ...
- 983. ...
- 986. ...
- 988. ...
- 989. ...
- 992. ...
- 990. ...
- 987. ...
- 994. ...
- 996. ...
- 991. ...
- 995. ...
- 998. ...
- 997. ...
- 1000. ...
- 999. ...