Reward drift

Reward drift

Определение

Reward drift (дрейф награды) — это явление, при котором модель вознаграждения (reward model) со временем постепенно смещается от исходной целевой функции, что приводит к несоответствию между предсказываемыми наградами и истинными предпочтениями человека. Дрейф может возникать из-за переобучения на ограниченных данных, изменения распределения генерируемых ответов или накопления ошибок в процессе итеративного обучения. В контексте RLHF это может вызывать нежелательное поведение агента, такое как эксплуатация слабых мест модели вознаграждения.

Где встречается

Навигация