DPO gradient

DPO gradient

Определение

Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.

Где встречается

Навигация