Reward overfitting

Reward overfitting

Определение

Reward overfitting (переобучение вознаграждения) — это явление в RLHF, когда модель-политика чрезмерно адаптируется к сигналам вознаграждения от reward model, теряя способность обобщать на новые данные. В результате модель начинает эксплуатировать шум или узкие места в reward model, вместо того чтобы следовать истинным предпочтениям человека. Это одна из ключевых проблем, наряду с reward hacking.

Где встречается

    1. Как собирать preference data для RLHF?...

Навигация