English translation is not available yet. Showing Russian content.
Outcome Reward Model
Outcome Reward Model
Определение
Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый шаг. Проще, но не дает пошаговой обратной связи.