中文翻译暂不可用,显示俄语原文。

DPO gradient

DPO gradient

Определение

Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.

Где встречается

Навигация