PPO
PPO
Определение
Proximal Policy Optimization (PPO) — это алгоритм обучения с подкреплением, широко применяемый в RLHF для дообучения языковых моделей. Он использует clipping для ограничения обновлений политики (Actor) и KL penalty для предотвращения слишком сильного отклонения от исходной модели. Благодаря более плотному сигналу награды от Reward Model PPO ускоряет сходимость по сравнению с другими RL-алгоритмами.
Где встречается
- 973. Какие фреймворки для fine-tuning вы используете?
- 981. Что такое RLHF в 3 шагах?
- 982. Зачем нужен SFT перед RLHF?
- 984. Как обучается Reward Model?
- 983. Как собирать preference data для RLHF?
- 986. Как работает PPO для LLM?
- 988. Почему DPO проще PPO?
- 989. Что такое GRPO? Отличие от PPO
- 992. Что такое reward hacking?
- 990. Как работает ReST? Отличие от PPO
- 987. Что такое KL penalty в PPO?
- 993. Как бороться с reward hacking?
- 994. Что такое Constitutional AI?
- 991. Как оценивать качество Reward Model?
- 995. Как проверить, что RLHF не сломал общие способности?
- 998. Как работает DPOP?
- 1000. Как test-time compute связан с RLHF?
- 999. Как собрать preference датасет для reasoning?