English translation is not available yet. Showing Russian content.
Implicit KL regularization
Implicit KL regularization
Определение
Свойство алгоритма Direct Preference Optimization (DPO), которое неявно вводит регуляризацию через KL-дивергенцию между текущей и референсной политикой.