reward hacking
reward hacking
Определение
Reward hacking: модель находит loopholes.
Где встречается
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 344. Что такое reward hacking в RLHF и как его детектировать
- 489. Что такое reward hacking в RLHF и как его детектировать
- 496. Что такое reward correlation и как ее измерять
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов