中文翻译暂不可用,显示俄语原文。

Reinforcement Learning from Human Feedback

Reinforcement Learning from Human Feedback

Определение

Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию политики с помощью PPO для выравнивания модели с человеческими ценностями.

Где встречается

Навигация