English translation is not available yet. Showing Russian content.
Direct Preference Optimization
Direct Preference Optimization
Определение
Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 344. Что такое reward hacking в RLHF и как его детектировать
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 489. Что такое reward hacking в RLHF и как его детектировать
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 496. Что такое reward correlation и как ее измерять
- 507. Что такое calibration в контексте reward model для RLHF
- 516. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 584. Что такое agent distillation (обучение маленького агента на траекториях большого)
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 686. Как работает synthetic data для RLHF (предпочтения)
- 870. Как работает LLM-as-judge и почему он biased
- 888. Как защититься от prompt stealing (кража системного промпта)
- 800+ вопросов
- 270. Настроить RLAIF для генерации предпочтений