Gradient-based attack
Gradient-based attack
Определение
White-box атака, при которой градиенты loss по входным токенам используются для поиска adversarial suffix, вызывающего небезопасное поведение.
Где встречается
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 800+ вопросов