Reinforcement Learning from Human Feedback

Определение

Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию политики с помощью PPO для выравнивания модели с человеческими ценностями.

Где встречается

28. Какие данные нужны для fine-tuning на кастомный стиль общения
36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
80. Какие 3 книгикурса вы рекомендуете по production LLM
105. Когда DSPy не подходит Назовите 3 сценария.
127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
258. Что такое weak supervision для разметки данных для fine-tuning и как его применить
297. Что такое representation engineering (RepE) и зачем он нужен
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
329. Как обучается reward model для RLHF и как избегать reward hacking
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
332. Как работает KL penalty в RLHF и как подобрать коэффициент
333. Что такое preference data collection и как минимизировать bias в сравнениях
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
337. Как вы проверяете, что RLHF не сломал базовые способности модели
340. Что такое Constitutional AI и как RLHF связан с ним
344. Что такое reward hacking в RLHF и как его детектировать
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
360. Что такое adversarial fine-tuning для защиты от jailbreak
489. Что такое reward hacking в RLHF и как его детектировать
492. Как вы измеряете inter-rater reliability для human evaluation
493. Что такое Positional bias в LLM-as-Judge и как его исправить
495. Что такое pairwise comparison vs scalar rating Когда что использовать
496. Что такое reward correlation и как ее измерять
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
507. Что такое calibration в контексте reward model для RLHF
514. Как вы генерируете synthetic данные для instruction tuning
571. Как работают verifier models для agentic RAG и зачем они нужны
584. Что такое agent distillation (обучение маленького агента на траекториях большого)
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
612. Что такое data exfiltration через LLM (утечка данных через ответы)
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
686. Как работает synthetic data для RLHF (предпочтения)
697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)

Reinforcement Learning from Human Feedback

Reinforcement Learning from Human Feedback

Определение

Где встречается

Навигация

Reinforcement Learning from Human Feedback

Reinforcement Learning from Human Feedback

Определение

Где встречается

Навигация