English translation is not available yet. Showing Russian content.
ensemble reward models
ensemble reward models
Определение
Метод, при котором несколько reward моделей обучаются и их выходы усредняются или комбинируются для снижения риска reward hacking и повышения устойчивости.
Где встречается
- 344. Что такое reward hacking в RLHF и как его детектировать
- 489. Что такое reward hacking в RLHF и как его детектировать
- 800+ вопросов