English translation is not available yet. Showing Russian content.
implicit reward
implicit reward
Определение
Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную модель вознаграждения.