GRPO
GRPO
Определение
Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный на сравнении ответов внутри группы.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 800+ вопросов