中文翻译暂不可用,显示俄语原文。
Jailbreak
Jailbreak
Определение
Атака на LLM, направленная на обход встроенных ограничений безопасности с помощью специально сконструированных промптов. Цель — заставить модель выполнить нежелательные действия или сгенерировать запрещённый контент.
Где встречается
- 125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 351. Как работает model stealing attack и как защититься
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 497. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 612. Что такое data exfiltration через LLM (утечка данных через ответы)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- Практика
- 800+ вопросов
- 102. Настроить Guardrails на NeMo