DPO gradient

Определение

Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.

Где встречается

335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)

DPO gradient

DPO gradient

Определение

Где встречается

Навигация