中文翻译暂不可用,显示俄语原文。

Generalized Advantage Estimation

Generalized Advantage Estimation

Определение

Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления политики. В GRPO не применяется.

Где встречается

Навигация