中文翻译暂不可用,显示俄语原文。
DPO gradient
DPO gradient
Определение
Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.
中文翻译暂不可用,显示俄语原文。
Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.