English translation is not available yet. Showing Russian content.
AutoDAN
AutoDAN
Определение
Градиентная атака на LLM, генерирующая adversarial суффиксы для обхода защитных механизмов.
Где встречается
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 800+ вопросов