Value model
Value model
Определение
Value model — это нейросеть, предсказывающая ценность состояния (state value) для оценки преимущества (advantage) в алгоритмах обучения с подкреплением. В контексте RLHF, таких как PPO, value model выступает критиком, обеспечивающим baseline для снижения дисперсии оценок. GRPO отказывается от отдельной value model, заменяя её групповым baseline на основе усреднения нескольких ответов.