Value function loss

Value function loss

Определение

Value function loss (потери функции ценности) — компонент функции потерь в алгоритмах RLHF, таких как PPO, который минимизирует ошибку между предсказанной функцией ценности (value function) и фактической наградой (или преимуществом). Он используется для обучения критика (critic) оценивать ожидаемую сумму наград. В отличие от PPO, DPO не требует отдельной функции ценности и, следовательно, не использует value function loss.

Где встречается

Навигация