Process reward model

Process reward model

Определение

Модель, оценивающая каждый шаг агента (или рассуждения), а не только финальный ответ; используется для детальной обратной связи.

Где встречается

Навигация