English translation is not available yet. Showing Russian content.
rule-based reward
rule-based reward
Определение
Функция награды, вычисляемая по детерминированным правилам (например, проверка правильности ответа), используемая в GRPO для задач math/code без отдельной reward model.