DPO loss

DPO loss

Определение

Функция потерь Direct Preference Optimization: -log σ(β * (log(π(y_w)/π_ref(y_w)) - log(π(y_l)/π_ref(y_l)))), где β — температурный коэффициент, π — политика модели, π_ref — референсная политика.

Где встречается

Навигация