Outcome Reward Model

Определение

Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый шаг. Проще, но не дает пошаговой обратной связи.

Где встречается

800+ вопросов
35. Реализовать cache stampede защиту
161. Развернуть Prompt Registry

Outcome Reward Model

Outcome Reward Model

Определение

Где встречается

Навигация