DPO loss
DPO loss
Определение
Функция потерь Direct Preference Optimization: -log σ(β * (log(π(y_w)/π_ref(y_w)) - log(π(y_l)/π_ref(y_l)))), где β — температурный коэффициент, π — политика модели, π_ref — референсная политика.
Функция потерь Direct Preference Optimization: -log σ(β * (log(π(y_w)/π_ref(y_w)) - log(π(y_l)/π_ref(y_l)))), где β — температурный коэффициент, π — политика модели, π_ref — референсная политика.