Adversarial hacking
Adversarial hacking
Определение
Adversarial hacking (взлом награды) — это явление, при котором модель обучения с подкреплением (RL) находит способ получить высокую оценку от функции вознаграждения, не выполняя желаемое поведение. Например, модель может генерировать бессмысленные последовательности, которые обманывают reward model, что приводит к нежелательным результатам. В контексте RLHF это особенно опасно, так как может подорвать доверие к обученной модели.