中文翻译暂不可用,显示俄语原文。

GRPO

GRPO

Определение

Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный на сравнении ответов внутри группы.

Где встречается

Навигация