中文翻译暂不可用,显示俄语原文。

Process reward model

Process reward model

Определение

Модель, оценивающая каждый шаг агента (или рассуждения), а не только финальный ответ; используется для детальной обратной связи.

Где встречается

Навигация