rule-based rewardrule-based reward Определение Функция награды, вычисляемая по детерминированным правилам (например, проверка правильности ответа), используемая в GRPO для задач math/code без отдельной reward model. Где встречается 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен Навигация Индекс терминов Индекс разборов Оглавление
rule-based reward Определение Функция награды, вычисляемая по детерминированным правилам (например, проверка правильности ответа), используемая в GRPO для задач math/code без отдельной reward model. Где встречается 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен Навигация Индекс терминов Индекс разборов Оглавление