Generalized Advantage Estimation

Generalized Advantage Estimation

Определение

Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления политики. В GRPO не применяется.

Где встречается

Навигация