Proximal Policy Optimization

Определение

Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
297. Что такое representation engineering (RepE) и зачем он нужен
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
329. Как обучается reward model для RLHF и как избегать reward hacking
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
332. Как работает KL penalty в RLHF и как подобрать коэффициент
334. Как вы делаете online RL для агентов (self-improvement loops)
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
337. Как вы проверяете, что RLHF не сломал базовые способности модели
340. Что такое Constitutional AI и как RLHF связан с ним
344. Что такое reward hacking в RLHF и как его детектировать
485. Как вы дебажите training instability (loss spikes, divergence)
489. Что такое reward hacking в RLHF и как его детектировать
496. Что такое reward correlation и как ее измерять
507. Что такое calibration в контексте reward model для RLHF
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
686. Как работает synthetic data для RLHF (предпочтения)
873. Как детектировать reward hacking в RLHF
895. Как оптимизировать траектории агента (trajectory optimization)
800+ вопросов
65. Реализовать process reward model
223. Fine-tune LoRA для стиля
270. Настроить RLAIF для генерации предпочтений

Proximal Policy Optimization

Proximal Policy Optimization

Определение

Где встречается

Навигация

Proximal Policy Optimization

Proximal Policy Optimization

Определение

Где встречается

Навигация