中文翻译暂不可用,显示俄语原文。
policy gradient
policy gradient
Определение
Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 800+ вопросов