中文翻译暂不可用,显示俄语原文。
implicit reward
implicit reward
Определение
Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную модель вознаграждения.
中文翻译暂不可用,显示俄语原文。
Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную модель вознаграждения.