中文翻译暂不可用,显示俄语原文。

ensemble reward models

ensemble reward models

Определение

Метод, при котором несколько reward моделей обучаются и их выходы усредняются или комбинируются для снижения риска reward hacking и повышения устойчивости.

Где встречается

Навигация