中文翻译暂不可用,显示俄语原文。

policy gradient

policy gradient

Определение

Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO.

Где встречается

Навигация