中文翻译暂不可用,显示俄语原文。

Value model

Value model

Определение

Value model — это нейросеть, предсказывающая ценность состояния (state value) для оценки преимущества (advantage) в алгоритмах обучения с подкреплением. В контексте RLHF, таких как PPO, value model выступает критиком, обеспечивающим baseline для снижения дисперсии оценок. GRPO отказывается от отдельной value model, заменяя её групповым baseline на основе усреднения нескольких ответов.

Где встречается

Навигация