中文翻译暂不可用,显示俄语原文。

Outcome Reward Model

Outcome Reward Model

Определение

Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый шаг. Проще, но не дает пошаговой обратной связи.

Где встречается

Навигация