English translation is not available yet. Showing Russian content.
policy gradient
policy gradient
Определение
Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 800+ вопросов