Reward overfitting

Определение

Reward overfitting (переобучение вознаграждения) — это явление в RLHF, когда модель-политика чрезмерно адаптируется к сигналам вознаграждения от reward model, теряя способность обобщать на новые данные. В результате модель начинает эксплуатировать шум или узкие места в reward model, вместо того чтобы следовать истинным предпочтениям человека. Это одна из ключевых проблем, наряду с reward hacking.

Где встречается

1. Как собирать preference data для RLHF?...

Reward overfitting

Reward overfitting

Определение

Где встречается

Навигация