reference policy
reference policy
Определение
Базовая политика (π_ref), относительно которой вычисляется относительная вероятность ответов в методах прямого обучения предпочтений, таких как DPO.
Базовая политика (π_ref), относительно которой вычисляется относительная вероятность ответов в методах прямого обучения предпочтений, таких как DPO.