DPO

DPO

Определение

Direct Preference Optimization (DPO) — метод RLHF, который напрямую оптимизирует языковую модель на основе парных предпочтений между ответами, без обучения отдельной модели вознаграждения. В отличие от PPO, DPO выводит аналитическое выражение для градиента политики, что упрощает обучение и снижает требования к памяти. При этом сохраняется KL-регуляризация для удержания политики близкой к исходному распределению, штрафуя за сильное отклонение от базовой модели.

Где встречается

Навигация