Reward overfitting
Reward overfitting
Определение
Reward overfitting (переобучение вознаграждения) — это явление в RLHF, когда модель-политика чрезмерно адаптируется к сигналам вознаграждения от reward model, теряя способность обобщать на новые данные. В результате модель начинает эксплуатировать шум или узкие места в reward model, вместо того чтобы следовать истинным предпочтениям человека. Это одна из ключевых проблем, наряду с reward hacking.
Где встречается
-
- Как собирать preference data для RLHF?...