Value model

Value model

Определение

Value model — это нейросеть, предсказывающая ценность состояния (state value) для оценки преимущества (advantage) в алгоритмах обучения с подкреплением. В контексте RLHF, таких как PPO, value model выступает критиком, обеспечивающим baseline для снижения дисперсии оценок. GRPO отказывается от отдельной value model, заменяя её групповым baseline на основе усреднения нескольких ответов.

Где встречается

Навигация