Scale drift (reward model)
Scale drift (reward model)
Определение
Дрейф шкалы (scale drift) — это явление, при котором модель вознаграждения (reward model) со временем начинает выдавать систематически завышенные или заниженные значения, что приводит к нарушению обучения с подкреплением (RL) и может вызывать reward hacking. Это происходит из-за отсутствия стабильной калибровки выходных оценок модели в процессе обучения.