Calibration RM

Определение

Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking.