中文翻译暂不可用,显示俄语原文。
Reinforcement Learning from Human Feedback
Reinforcement Learning from Human Feedback
Определение
Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию политики с помощью PPO для выравнивания модели с человеческими ценностями.
Где встречается
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 105. Когда DSPy не подходит Назовите 3 сценария.
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
- 258. Что такое weak supervision для разметки данных для fine-tuning и как его применить
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 344. Что такое reward hacking в RLHF и как его детектировать
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 489. Что такое reward hacking в RLHF и как его детектировать
- 492. Как вы измеряете inter-rater reliability для human evaluation
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 496. Что такое reward correlation и как ее измерять
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 507. Что такое calibration в контексте reward model для RLHF
- 514. Как вы генерируете synthetic данные для instruction tuning
- 571. Как работают verifier models для agentic RAG и зачем они нужны
- 584. Что такое agent distillation (обучение маленького агента на траекториях большого)
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 612. Что такое data exfiltration через LLM (утечка данных через ответы)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 686. Как работает synthetic data для RLHF (предпочтения)
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)