English translation is not available yet. Showing Russian content.

ensemble reward models

ensemble reward models

Определение

Метод, при котором несколько reward моделей обучаются и их выходы усредняются или комбинируются для снижения риска reward hacking и повышения устойчивости.

Где встречается

Навигация