中文翻译暂不可用,显示俄语原文。

rule-based reward

rule-based reward

Определение

Функция награды, вычисляемая по детерминированным правилам (например, проверка правильности ответа), используемая в GRPO для задач math/code без отдельной reward model.

Где встречается

Навигация