DPO
DPO
Определение
Direct Preference Optimization (DPO) — метод RLHF, который напрямую оптимизирует языковую модель на основе парных предпочтений между ответами, без обучения отдельной модели вознаграждения. В отличие от PPO, DPO выводит аналитическое выражение для градиента политики, что упрощает обучение и снижает требования к памяти. При этом сохраняется KL-регуляризация для удержания политики близкой к исходному распределению, штрафуя за сильное отклонение от базовой модели.
Где встречается
- 973. Какие фреймворки для fine-tuning вы используете?
- 988. Почему DPO проще PPO?
- 994. Что такое Constitutional AI?
- 996. Как деплоить RLHF-модель в production?
- 998. Как работает DPOP?
- 1000. Как test-time compute связан с RLHF?