DPO

Определение

Direct Preference Optimization (DPO) — метод RLHF, который напрямую оптимизирует языковую модель на основе парных предпочтений между ответами, без обучения отдельной модели вознаграждения. В отличие от PPO, DPO выводит аналитическое выражение для градиента политики, что упрощает обучение и снижает требования к памяти. При этом сохраняется KL-регуляризация для удержания политики близкой к исходному распределению, штрафуя за сильное отклонение от базовой модели.

Где встречается

973. Какие фреймворки для fine-tuning вы используете?
988. Почему DPO проще PPO?
994. Что такое Constitutional AI?
996. Как деплоить RLHF-модель в production?
998. Как работает DPOP?
1000. Как test-time compute связан с RLHF?

DPO

DPO

Определение

Где встречается

Навигация