English translation is not available yet. Showing Russian content.
white-box jailbreak
white-box jailbreak
Определение
Атака с полным доступом к модели (веса, градиенты), направленная на обход safety alignment. Примеры: HotFlip, FGSM.
Где встречается
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)
- 800+ вопросов