Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/reward hacking

reward hacking

reward hacking

Определение

Reward hacking: модель находит loopholes.

Где встречается

261. Как вы управляете качеством разметки (label quality) для DPO датасетов
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
329. Как обучается reward model для RLHF и как избегать reward hacking
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
332. Как работает KL penalty в RLHF и как подобрать коэффициент
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
337. Как вы проверяете, что RLHF не сломал базовые способности модели
344. Что такое reward hacking в RLHF и как его детектировать
489. Что такое reward hacking в RLHF и как его детектировать
496. Что такое reward correlation и как ее измерять
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
873. Как детектировать reward hacking в RLHF
800+ вопросов

Навигация

Индекс терминов
Индекс разборов
Оглавление