中文翻译暂不可用,显示俄语原文。Outcome Reward ModelOutcome Reward Model Определение Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый шаг. Проще, но не дает пошаговой обратной связи. Где встречается 800+ вопросов 35. Реализовать cache stampede защиту 161. Развернуть Prompt Registry Навигация Индекс терминов Индекс разборов Оглавление
Outcome Reward Model Определение Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый шаг. Проще, но не дает пошаговой обратной связи. Где встречается 800+ вопросов 35. Реализовать cache stampede защиту 161. Развернуть Prompt Registry Навигация Индекс терминов Индекс разборов Оглавление