English translation is not available yet. Showing Russian content.

Reinforcement Learning from Human Feedback

Reinforcement Learning from Human Feedback

Определение

Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию политики с помощью PPO для выравнивания модели с человеческими ценностями.

Где встречается

Навигация