中文翻译暂不可用,显示俄语原文。

implicit reward

implicit reward

Определение

Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную модель вознаграждения.

Где встречается

Навигация