Generalized Advantage Estimation

Определение

Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления политики. В GRPO не применяется.

Где встречается

326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
334. Как вы делаете online RL для агентов (self-improvement loops)

Generalized Advantage Estimation

Generalized Advantage Estimation

Определение

Где встречается

Навигация