Поиск

  • wikiJailbreak-атаки

    # Jailbreak-атаки ## Определение Попытки обойти ограничения модели для генерации небезопасного контента. Являются ключевым объектом red teaming и тестирования безопасности. ## Где…

  • answerЧто такое red teaming для LLM и как его проводить?

    …старые атаки должны блокироваться. - Также проверяют, что защита не ухудшила качество работы модели на легитимных запросах (нет ложных срабатываний). ### 4…

  • answerКак вы проводите red teaming LLM-приложения? Назовите 3 техники.

    найденный для одной модели, может не работать на другой. --- ## 5. Сравнение техник | Характеристика | Hand-crafted jailbreaks | Генеративные атаки | Градиентные атаки

  • answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?

    на целевой модели. 2. [[Вики/Evaluation\|Оценка]]: считаем метрики (ASR, refusal rate, FPR). 3. Анализ: смотрим на успешные атаки — какие…

  • answerЧто такое jailbreak taxonomy (полная классификация)?

    …Infrastructure-based атаки (инфраструктурные) Атаки на саму архитектуру [[Вики/GPT-4o\|LLM]] или на данные, доступные модели. ### 5.1 Prompt…

  • answerКак вы тестируете robustness LLM к adversarial input (не только injection)?

    Атаки делятся на [[Вики/White-box\|white-box]] (доступ к весам и градиентам модели) и [[Вики/Black-box attack\|black…

  • wikitransferability

    # transferability ## Определение Способность атаки, созданной для одной модели, эффективно работать на другой модели. ## Где встречается - [[355. Как вы защищаете LLM…

  • wikiMultilingual attacks

    # Multilingual attacks ## Определение Атаки с использованием редких языков для обхода защит, а также способность модели работать с несколькими языками в…

  • wikiWhite-box

    модели. Позволяет проводить градиентные атаки, такие как FGSM. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • answerКак работает membership inference через logits (разница в вероятностях)?

    …Факторы, влияющие на успех атаки | Фактор | Влияние на атаку | |--------|------------------| | Размер модели (больше параметров) | Увеличивает запоминание → атака легче | | Количество эпох обучения…

  • answerЧто такое MITRE ATLAS и как он связан с MITRE ATT&CK?

    …цель атаки (например, «Получение доступа к модели»). Техника (Technique) — способ достижения этой цели (например, «Атака через инверсию модели»). Процедура (Procedure…

  • answerКак работает membership inference атака на LLM?

    …требует доступа к [[Вики/reference модели\|reference модели]], которая должна быть обучена на похожих данных. --- ## 4. Метрики успешности атаки Для…

  • wikimoral reasoning attack

    …attack — тип jailbreak-атаки на LLM, использующий этический релятивизм и двойные стандарты для обхода ограничений модели. ## Где встречается - [[881. Что…

  • answerКак работает model inversion атака (восстановление training данных)?

    …Вики/Priority\|приоритет]] на естественные данные). --- ## 3. Типы Model Inversion атак | Тип атаки | Доступ к модели | Сложность | Пример | |-----------|----------------|-----------|--------| | **White-box…

  • wikiXML/JSON payloads

    # XML/JSON payloads ## Определение Вектор атаки на LLM через структурированные данные (XML/JSON), используемый для переопределения поведения модели; часть таксономии…

  • wikiLoss-based attack

    # Loss-based attack ## Определение Простой метод атаки на членство (MIA), основанный на сравнении значения функции потерь или перплексии модели на

  • wikiReference-based attack

    # Reference-based attack ## Определение Метод атаки на членство (membership inference attack), использующий теневые модели и классификатор для определения, входили ли…

  • wikiDAN

    …Пример ручной атаки на безопасность модели. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127…

  • answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?

    …запуск GCG/AutoDAN на текущей версии модели) генерирует тысячи атакующих примеров. 2. Создаётся [[Вики/dataset\|датасет]]: `(вредоносный [[Вики/Prompt engineering…

  • wikiLoss-based MIA

    # Loss-based MIA ## Определение Вариант атаки на членство, использующий значение потерь модели на примере для определения, входил ли он в…

  • wikiAzure AI Red Team Tools

    Набор инструментов от Azure для red-teaming LLM, позволяющий генерировать prompt injection и multi-turn атаки для проверки robustness модели

  • answerКак тестировать robustness LLM к adversarial inputs?

    …Классификация adversarial атак на LLM Атаки можно разделить по уровню вмешательства и доступной информации о модели. | Тип атаки | Примеры | Знания…

  • wikiGenerative attacks

    …Используются для оценки устойчивости модели к adversarial воздействиям. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikiWord-level attack

    # Word-level attack ## Определение Тип adversarial-атаки на NLP-модели, при которой изменяются отдельные слова (замена синонимами, перестановка) для искажения…

  • wikiEmbedding Rotation

    …атак на RAG, заключающийся в периодическом пересчёте всех эмбеддингов с использованием новой модели или случайного сида, что затрудняет атаки типа…

  • answerКак работает membership inference атака на LLM?

    …Атака опирается на разницу в поведении модели на «виденных» (из train) и «невиденных» данных: для заученных примеров [[Вики/model\|модель…

  • answerКак работает adversarial example для embedding моделей (атака на retrieval)?

    Атаки делятся на [[Вики/White-box\|white-box]] (требуют доступа к градиентам модели) и [[Вики/Black-box attack\|black-box…

  • wikiSentence-level attack

    # Sentence-level attack ## Определение Вид adversarial-атаки на NLP-модели, при которой заменяются слова или фразы на семантически близкие альтернативы…

  • answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?

    …1. **[[Вики/red teaming\|Red team]]** проводит атаки на текущую версию модели (или защитных слоёв). 2. **[[Вики/purple team\|Purple…

  • wikiAdversarial attacks

    # Adversarial attacks ## Определение Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI. ## Где встречается - [[340…

  • wikiPrefix injection

    # Prefix injection ## Определение Тип атаки, при которой в начало ответа модели вставляется фраза, заставляющая модель продолжить в нужном направлении. ## Где…

  • wikigradient-based

    # gradient-based ## Определение Методы атак, использующие градиенты модели для генерации состязательных входов, например Greedy Coordinate Gradient (GCG). Требуют white-box…

  • answerКак делать adversarial evals для RAG (проверка на устойчивость)?

    …Типы атак на RAG ### 2.1 Атаки на входной запрос Это наиболее доступные атаки, не требующие доступа к модели. #### Typo…

  • answerКак работает model stealing attack и как защититься?

    …model)** — модель, обученная злоумышленником на запросах к оригинальной модели, чтобы аппроксимировать её поведение. --- ## 2. Механизм атаки: query → log → train Атака…

  • wikiTextFooler

    # TextFooler ## Определение Black-box метод атаки на NLP-модели, заменяющий важные слова на синонимы с сохранением грамматической правильности. Используется для…

  • wikiwatermarking

    …Позволяет детектировать копирование и атаки экстракции модели. ## Где встречается - [[351. Как работает model stealing attack и как защититься|351. Как…

  • answerЧто такое adversarial retrieval (атака на retrieval компонент)?

    …вставлять ключевые слова, повторять фразы, использовать синонимы. - Применять генеративные модели для создания текста, который будет похож на запросы (например, обучить…

  • answerЧто такое data poisoning атака на fine-tuning и как защититься?

    …Как работает membership inference атака на LLM\|602]] | Adversarial attacks на LLM (входные атаки) | | [[603. Что такое watermarking для LLM…

  • answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?

    …Сертификация выдаётся на ограниченный срок (обычно 1 год) и требует повторного прохождения при значительных изменениях модели (fine-tuning, смена архитектуры…

  • answerОбъясните разницу между NeMo Guardrails и Garak. Когда что используется?

    атаки для поиска уязвимостей модели. [[Вики/NeMo Guardrails\|Guardrails]] предотвращает инциденты, [[Вики/Garak\|Garak]] — помогает их найти и устранить на

  • answerЧто такое data poisoning атака на fine-tuning и как защититься?

    …повлиять на адаптеры. --- ## Пет-проект для закрепления [[Вики/Task\|Задача]] Реализовать симуляцию data poisoning атаки на fine-tuning модели для…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить adversarial evaluation для RAG

    …Прогнать атаки на тех же 50 запросах (или на 20, если время ограничено). 4. Посчитать [[Вики/accuracy drop\|accuracy drop…

  • wikiadversarial training

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20…

  • answerЧто такое Model Poisoning в контексте RAG и как защититься?

    …Model Poisoning (отравление модели) [[Вики/Model Poisoning\|Model Poisoning]] — класс атак на машинное [[Вики/training\|обучение]], при котором злоумышленник манипулирует…

  • answerКак работает model stealing attack (экстракция модели через API)?

    …Вики/training\|обучение]] модели, отличающей запросы реальных пользователей от атакующих. ## 7. Пример кода (симуляция атаки на логитах) ```python import torch…

  • wikiData augmentation

    …Как вы избегаете переобучения при fine-tuning на маленьком датасете]] - [[129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20…

  • answerНазовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?

    …Эти риски охватывают как атаки на саму [[Вики/model\|модель]], так и на инфраструктуру, и требуют приоритетного внимания при проектировании…

  • answerЧто такое adversarial fine-tuning для защиты от jailbreak?

    …модель дообучается на adversarial-примерах, чтобы научиться распознавать и отклонять атаки. [[Вики/red teaming\|Red teaming]] — процесс имитации атак на

  • answerКак работает model extraction attack и как защититься?

    модели) [[Вики/model stealing attack\|Model extraction attack]] — это тип [[Вики/adversarial input\|adversarial attack]] (враждебной атаки), направленный на кражу…

  • answerЧто такое secure aggregation для федеративного обучения LLM?

    …Пример атаки (Zhu et al., 2019): по градиентам от модели на изображениях можно восстановить исходное изображение с высоким качеством. Aggregation…