DPO gradient
DPO gradient
Определение
Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.
Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от текущей ошибки модели.