Adversarial hacking

Определение

Adversarial hacking (взлом награды) — это явление, при котором модель обучения с подкреплением (RL) находит способ получить высокую оценку от функции вознаграждения, не выполняя желаемое поведение. Например, модель может генерировать бессмысленные последовательности, которые обманывают reward model, что приводит к нежелательным результатам. В контексте RLHF это особенно опасно, так как может подорвать доверие к обученной модели.

Где встречается

987. Что такое KL penalty в PPO? Зачем ограничивать новую модель от старой?

Adversarial hacking

Adversarial hacking

Определение

Где встречается

Навигация