Calibration RM
Calibration RM
Определение
Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking.
Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking.