Direct Preference Optimization

Определение

Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
297. Что такое representation engineering (RepE) и зачем он нужен
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
332. Как работает KL penalty в RLHF и как подобрать коэффициент
333. Что такое preference data collection и как минимизировать bias в сравнениях
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
337. Как вы проверяете, что RLHF не сломал базовые способности модели
340. Что такое Constitutional AI и как RLHF связан с ним
344. Что такое reward hacking в RLHF и как его детектировать
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
360. Что такое adversarial fine-tuning для защиты от jailbreak
489. Что такое reward hacking в RLHF и как его детектировать
493. Что такое Positional bias в LLM-as-Judge и как его исправить
495. Что такое pairwise comparison vs scalar rating Когда что использовать
496. Что такое reward correlation и как ее измерять
507. Что такое calibration в контексте reward model для RLHF
516. Как вы управляете качеством разметки (label quality) для DPO датасетов
579. Как работает agent replay для улучшения качества (анализ failed траекторий)
584. Что такое agent distillation (обучение маленького агента на траекториях большого)
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
686. Как работает synthetic data для RLHF (предпочтения)
870. Как работает LLM-as-judge и почему он biased
888. Как защититься от prompt stealing (кража системного промпта)
800+ вопросов
270. Настроить RLAIF для генерации предпочтений

Direct Preference Optimization

Direct Preference Optimization

Определение

Где встречается

Навигация

Direct Preference Optimization

Direct Preference Optimization

Определение

Где встречается

Навигация