red teaming
red teaming
Определение
Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и повысить устойчивость модели.
Где встречается
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется
- 126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 497. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 594. Что такое agent safety constraints (ограничения на действия агента)
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 612. Что такое data exfiltration через LLM (утечка данных через ответы)
- 613. Как работает model watermarking для LLM (идентификация модели-источника)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
- 625. Что такое adversarial prompt detection для реального времени (runtime)
- 736. Что такое red teaming certification (стандарты 2026 для оценки robustness)
- 867. Как делать adversarial evals для RAG (проверка на устойчивость)
- 868. Что такое red teaming для LLM и как его проводить
- 881. Что такое jailbreak taxonomy (полная классификация)
- 883. Как защитить RAG от poisoning (вредоносные документы в базе знаний)
- 888. Как защититься от prompt stealing (кража системного промпта)
- 890. Как тестировать robustness LLM к adversarial inputs
- Практика
- 800+ вопросов