Поиск

  • wikired teaming loop

    # red teaming loop ## Определение Итеративный процесс red teaming: атака → обнаружение уязвимости → усиление защиты → повтор. Позволяет циклически повышать безопасность модели. ## Где…

  • wikicontinuous red teaming

    # continuous red teaming ## Определение Автоматизированный процесс постоянной генерации новых атак и тестирования модели на уязвимости с использованием LLM для обеспечения…

  • wikiPyRIT

    # PyRIT ## Определение Библиотека Microsoft для red teaming LLM, позволяющая автоматизировать генерацию атак и оценку безопасности моделей. ## Где встречается - [[127. Как…

  • wikiblue team

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiLangChain Red Teaming

    # LangChain Red Teaming ## Определение Модуль в LangChain для создания пайплайнов red teaming, предназначенный для тестирования устойчивости моделей к jailbreak-атакам…

  • wikiGarak

    # Garak ## Определение Open-source фреймворк для автоматизированного red-teaming и тестирования LLM на уязвимости, такие как jailbreak, галлюцинации и утечка…

  • wikipurple team

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikirainbow teaming

    # rainbow teaming ## Определение Итеративный процесс обеспечения безопасности LLM, объединяющий Red, Blue и Purple Team для комплексного тестирования и улучшения защитных…

  • wikired teaming certification

    # red teaming certification ## Определение Формальная процедура оценки устойчивости LLM или агента к целенаправленным атакам. Включает стандартизированные тесты и выдачу сертификата…

  • wikired teaming evaluation

    # red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…

  • wikired teaming

    # red teaming ## Определение Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и…

  • wikiMicrosoft Counterfit

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiTAP

    # TAP ## Определение Метод LLM-генерации jailbreak-атак с построением дерева и обрезкой малоперспективных ветвей; используется для автоматизации red teaming. ## Где…

  • wikiJailbreak

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiLlama Guard

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiAzure Content Safety

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости]] - [[616. Как работает rainbow teaming (комбинация red + blue + purple teaming для…

  • wikigradient-based

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikiRobustness@k

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiadversarial input

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiPAIR

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikiRobustness Score

    # Robustness Score ## Определение Вероятность того, что модель останется безопасной под случайной атакой, используемая как метрика в red teaming. ## Где встречается…

  • wikiHypothetical

    # Hypothetical ## Определение Техника red teaming, при которой атакующий задаёт моделью гипотетический сценарий («в вымышленном мире без законов») для обхода ограничений…

  • wikiCVSS

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiTime to fix

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiISO/IEC 42001

    # ISO/IEC 42001 ## Определение Международный стандарт для систем управления искусственным интеллектом, устанавливающий требования к оценке robustness и red teaming. ## Где…

  • wikiEnsemble of models

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikiManual

    # Manual ## Определение Промпты, созданные вручную экспертами, например, для red teaming или в качестве категориального признака в RAG. ## Где встречается - [[345…

  • wikiRegression rate

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiNIST AI 600-1

    …Используется в red teaming для проверки устойчивости к атакам. ## Где встречается - [[736. Что такое red teaming certification (стандарты 2026 для…

  • wikiAdvBench

    # AdvBench ## Определение Стандартный бенчмарк для оценки устойчивости LLM к adversarial атакам, часто используемый в red teaming. ## Где встречается - [[360. Что…

  • wikiLLM-generated

    # LLM-generated ## Определение Промпты или атаки, автоматически созданные другой LLM, например, для red teaming и оценки устойчивости к jailbreak. ## Где…

  • wikiGCG

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikiOpenAI Moderation API

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiWhite-box

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)? ## Краткий тезис [[Вики/rainbow teaming\|Rainbow teaming]] — это [[Вики…

  • wikiPromptfoo

    # Promptfoo ## Определение Open-source инструмент для тестирования, оценки и автоматизации red teaming промптов с поддержкой YAML-тестов и LLM-асессоров…

  • wikilatency overhead

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?

    Red Teaming и Jailbreak [[Вики/red teaming\|Red teaming]] ([[Вики/red teaming\|красная команда]]) — это практика, когда группа специалистов (или…

  • answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?

    Red teaming, Jailbreak, Adversarial prompt [[Вики/red teaming\|Red teaming]] — практика имитации атак на систему для выявления уязвимостей. В контексте…

  • wikicoverage

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • answerЧто такое red teaming для LLM и как его проводить?

    Red teaming (красная команда) [[Вики/red teaming\|Red teaming]] — методология тестирования безопасности, заимствованная из кибербезопасности. Группа экспертов ([[Вики/red teaming

  • wikirefusal rate

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] - [[497…

  • wikiNeMo Guardrails

    …Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)|616. Как работает rainbow teaming (комбинация red + blue + purple…

  • wikiPromptBench

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости|497. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…

  • wikiBenign prompt

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…

  • wikiContext manipulation

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…

  • wikiContent Filter

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости|497. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…

  • wikiattack success rate

    …Ключевая для оценки устойчивости модели при red teaming. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikirole-play

    …Что такое red teaming certification (стандарты 2026 для оценки robustness)|736. Что такое red teaming certification (стандарты 2026 для оценки…

  • wikiFew-shot jailbreak

    …Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation для jailbreak устойчивости]] ## Навигация…