PPO

PPO

Определение

Proximal Policy Optimization (PPO) — это алгоритм обучения с подкреплением, широко применяемый в RLHF для дообучения языковых моделей. Он использует clipping для ограничения обновлений политики (Actor) и KL penalty для предотвращения слишком сильного отклонения от исходной модели. Благодаря более плотному сигналу награды от Reward Model PPO ускоряет сходимость по сравнению с другими RL-алгоритмами.

Где встречается

Навигация