policy gradient

Определение

Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO.