Generalized Advantage Estimation
Generalized Advantage Estimation
Определение
Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления политики. В GRPO не применяется.
Где встречается
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 334. Как вы делаете online RL для агентов (self-improvement loops)