Gradient-based attack

Gradient-based attack

Определение

White-box атака, при которой градиенты loss по входным токенам используются для поиска adversarial suffix, вызывающего небезопасное поведение.

Где встречается

Навигация