中文翻译暂不可用,显示俄语原文。
Implicit KL regularization
Implicit KL regularization
Определение
Свойство алгоритма Direct Preference Optimization (DPO), которое неявно вводит регуляризацию через KL-дивергенцию между текущей и референсной политикой.
中文翻译暂不可用,显示俄语原文。
Свойство алгоритма Direct Preference Optimization (DPO), которое неявно вводит регуляризацию через KL-дивергенцию между текущей и референсной политикой.