Поиск
- wikired teaming loop
# red teaming loop ## Определение Итеративный процесс red teaming: атака → обнаружение уязвимости → усиление защиты → повтор. Позволяет циклически повышать безопасность модели. ## Где…
- wikicontinuous red teaming
# continuous red teaming ## Определение Автоматизированный процесс постоянной генерации новых атак и тестирования модели на уязвимости с использованием LLM для обеспечения…
- wikiPyRIT
# PyRIT ## Определение Библиотека Microsoft для red teaming LLM, позволяющая автоматизировать генерацию атак и оценку безопасности моделей. ## Где встречается - [[127. Как…
- wikiblue team
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiLangChain Red Teaming
# LangChain Red Teaming ## Определение Модуль в LangChain для создания пайплайнов red teaming, предназначенный для тестирования устойчивости моделей к jailbreak-атакам…
- wikiGarak
# Garak ## Определение Open-source фреймворк для автоматизированного red-teaming и тестирования LLM на уязвимости, такие как jailbreak, галлюцинации и утечка…
- wikipurple team
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikirainbow teaming
# rainbow teaming ## Определение Итеративный процесс обеспечения безопасности LLM, объединяющий Red, Blue и Purple Team для комплексного тестирования и улучшения защитных…
- wikired teaming certification
# red teaming certification ## Определение Формальная процедура оценки устойчивости LLM или агента к целенаправленным атакам. Включает стандартизированные тесты и выдачу сертификата…
- wikired teaming evaluation
# red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…
- wikired teaming
# red teaming ## Определение Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и…
- wikiMicrosoft Counterfit
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiTAP
# TAP ## Определение Метод LLM-генерации jailbreak-атак с построением дерева и обрезкой малоперспективных ветвей; используется для автоматизации red teaming. ## Где…
- wikiJailbreak
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiLlama Guard
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiAzure Content Safety
…Как вы проектируете red teaming evaluation для jailbreak устойчивости]] - [[616. Как работает rainbow teaming (комбинация red + blue + purple teaming для…
- wikigradient-based
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikiRobustness@k
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiadversarial input
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiPAIR
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikiRobustness Score
# Robustness Score ## Определение Вероятность того, что модель останется безопасной под случайной атакой, используемая как метрика в red teaming. ## Где встречается…
- wikiHypothetical
# Hypothetical ## Определение Техника red teaming, при которой атакующий задаёт моделью гипотетический сценарий («в вымышленном мире без законов») для обхода ограничений…
- wikiCVSS
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiTime to fix
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiISO/IEC 42001
# ISO/IEC 42001 ## Определение Международный стандарт для систем управления искусственным интеллектом, устанавливающий требования к оценке robustness и red teaming. ## Где…
- wikiEnsemble of models
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikiManual
# Manual ## Определение Промпты, созданные вручную экспертами, например, для red teaming или в качестве категориального признака в RAG. ## Где встречается - [[345…
- wikiRegression rate
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiNIST AI 600-1
…Используется в red teaming для проверки устойчивости к атакам. ## Где встречается - [[736. Что такое red teaming certification (стандарты 2026 для…
- wikiAdvBench
# AdvBench ## Определение Стандартный бенчмарк для оценки устойчивости LLM к adversarial атакам, часто используемый в red teaming. ## Где встречается - [[360. Что…
- wikiLLM-generated
# LLM-generated ## Определение Промпты или атаки, автоматически созданные другой LLM, например, для red teaming и оценки устойчивости к jailbreak. ## Где…
- wikiGCG
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikiOpenAI Moderation API
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiWhite-box
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…
- answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)? ## Краткий тезис [[Вики/rainbow teaming\|Rainbow teaming]] — это [[Вики…
- wikiPromptfoo
# Promptfoo ## Определение Open-source инструмент для тестирования, оценки и автоматизации red teaming промптов с поддержкой YAML-тестов и LLM-асессоров…
- wikilatency overhead
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…Red Teaming и Jailbreak [[Вики/red teaming\|Red teaming]] ([[Вики/red teaming\|красная команда]]) — это практика, когда группа специалистов (или…
- answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…Red teaming, Jailbreak, Adversarial prompt [[Вики/red teaming\|Red teaming]] — практика имитации атак на систему для выявления уязвимостей. В контексте…
- wikicoverage
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- answerЧто такое red teaming для LLM и как его проводить?
…Red teaming (красная команда) [[Вики/red teaming\|Red teaming]] — методология тестирования безопасности, заимствованная из кибербезопасности. Группа экспертов ([[Вики/red teaming…
- wikirefusal rate
…Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] - [[497…
- wikiNeMo Guardrails
…Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…
- wikiPromptBench
…Как вы проектируете red teaming evaluation для jailbreak устойчивости|497. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…
- wikiBenign prompt
…Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…
- wikiContext manipulation
…Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…
- wikiContent Filter
…Как вы проектируете red teaming evaluation для jailbreak устойчивости|497. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…
- wikiattack success rate
…Ключевая для оценки устойчивости модели при red teaming. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikirole-play
…Что такое red teaming certification (стандарты 2026 для оценки robustness)|736. Что такое red teaming certification (стандарты 2026 для оценки…
- wikiFew-shot jailbreak
…Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…