English translation is not available yet. Showing Russian content.
KL penalty
KL penalty
Определение
Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между распределениями.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 344. Что такое reward hacking в RLHF и как его детектировать
- 356. Что такое data poisoning атака на fine-tuning и как защититься
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 489. Что такое reward hacking в RLHF и как его детектировать
- 503. Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)
- 507. Что такое calibration в контексте reward model для RLHF
- 530. Как вы делаете data quality monitoring для RAG корпуса
- 800+ вопросов