proxy reward
proxy reward
Определение
Аппроксимация истинной цели, которую оптимизирует модель; причина reward hacking в RLHF.
Где встречается
- 344. Что такое reward hacking в RLHF и как его детектировать
- 489. Что такое reward hacking в RLHF и как его детектировать
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов