Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/red teaming

red teaming

red teaming

Определение

Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и повысить устойчивость модели.

Где встречается

96. Как вы предотвращаете галлюцинации в production RAG системе
125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется
126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK
127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
298. Как вы тестируете robustness LLM к adversarial input (не только injection)
340. Что такое Constitutional AI и как RLHF связан с ним
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
360. Что такое adversarial fine-tuning для защиты от jailbreak
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
497. Как вы проектируете red teaming evaluation для jailbreak устойчивости
594. Что такое agent safety constraints (ограничения на действия агента)
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
612. Что такое data exfiltration через LLM (утечка данных через ответы)
613. Как работает model watermarking для LLM (идентификация модели-источника)
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
625. Что такое adversarial prompt detection для реального времени (runtime)
736. Что такое red teaming certification (стандарты 2026 для оценки robustness)
867. Как делать adversarial evals для RAG (проверка на устойчивость)
868. Что такое red teaming для LLM и как его проводить
881. Что такое jailbreak taxonomy (полная классификация)
883. Как защитить RAG от poisoning (вредоносные документы в базе знаний)
888. Как защититься от prompt stealing (кража системного промпта)
890. Как тестировать robustness LLM к adversarial inputs
Практика
800+ вопросов

Навигация

Индекс терминов
Индекс разборов
Оглавление