rule-based reward

Определение

Функция награды, вычисляемая по детерминированным правилам (например, проверка правильности ответа), используемая в GRPO для задач math/code без отдельной reward model.

Где встречается

328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен

rule-based reward

rule-based reward

Определение

Где встречается

Навигация