PPO

Определение

Proximal Policy Optimization (PPO) — это алгоритм обучения с подкреплением, широко применяемый в RLHF для дообучения языковых моделей. Он использует clipping для ограничения обновлений политики (Actor) и KL penalty для предотвращения слишком сильного отклонения от исходной модели. Благодаря более плотному сигналу награды от Reward Model PPO ускоряет сходимость по сравнению с другими RL-алгоритмами.

Где встречается

973. Какие фреймворки для fine-tuning вы используете?
981. Что такое RLHF в 3 шагах?
982. Зачем нужен SFT перед RLHF?
984. Как обучается Reward Model?
983. Как собирать preference data для RLHF?
986. Как работает PPO для LLM?
988. Почему DPO проще PPO?
989. Что такое GRPO? Отличие от PPO
992. Что такое reward hacking?
990. Как работает ReST? Отличие от PPO
987. Что такое KL penalty в PPO?
993. Как бороться с reward hacking?
994. Что такое Constitutional AI?
991. Как оценивать качество Reward Model?
995. Как проверить, что RLHF не сломал общие способности?
998. Как работает DPOP?
1000. Как test-time compute связан с RLHF?
999. Как собрать preference датасет для reasoning?

PPO

PPO

Определение

Где встречается

Навигация