Поиск
- wikiJailbreak-атаки
# Jailbreak-атаки ## Определение Попытки обойти ограничения модели для генерации небезопасного контента. Являются ключевым объектом red teaming и тестирования безопасности. ## Где…
- answerЧто такое red teaming для LLM и как его проводить?
…старые атаки должны блокироваться. - Также проверяют, что защита не ухудшила качество работы модели на легитимных запросах (нет ложных срабатываний). ### 4…
- answerКак вы проводите red teaming LLM-приложения? Назовите 3 техники.
…найденный для одной модели, может не работать на другой. --- ## 5. Сравнение техник | Характеристика | Hand-crafted jailbreaks | Генеративные атаки | Градиентные атаки…
- answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…на целевой модели. 2. [[Вики/Evaluation\|Оценка]]: считаем метрики (ASR, refusal rate, FPR). 3. Анализ: смотрим на успешные атаки — какие…
- answerЧто такое jailbreak taxonomy (полная классификация)?
…Infrastructure-based атаки (инфраструктурные) Атаки на саму архитектуру [[Вики/GPT-4o\|LLM]] или на данные, доступные модели. ### 5.1 Prompt…
- answerКак вы тестируете robustness LLM к adversarial input (не только injection)?
…Атаки делятся на [[Вики/White-box\|white-box]] (доступ к весам и градиентам модели) и [[Вики/Black-box attack\|black…
- wikitransferability
# transferability ## Определение Способность атаки, созданной для одной модели, эффективно работать на другой модели. ## Где встречается - [[355. Как вы защищаете LLM…
- wikiMultilingual attacks
# Multilingual attacks ## Определение Атаки с использованием редких языков для обхода защит, а также способность модели работать с несколькими языками в…
- wikiWhite-box
…модели. Позволяет проводить градиентные атаки, такие как FGSM. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…
- answerКак работает membership inference через logits (разница в вероятностях)?
…Факторы, влияющие на успех атаки | Фактор | Влияние на атаку | |--------|------------------| | Размер модели (больше параметров) | Увеличивает запоминание → атака легче | | Количество эпох обучения…
- answerЧто такое MITRE ATLAS и как он связан с MITRE ATT&CK?
…цель атаки (например, «Получение доступа к модели»). Техника (Technique) — способ достижения этой цели (например, «Атака через инверсию модели»). Процедура (Procedure…
- answerКак работает membership inference атака на LLM?
…требует доступа к [[Вики/reference модели\|reference модели]], которая должна быть обучена на похожих данных. --- ## 4. Метрики успешности атаки Для…
- wikimoral reasoning attack
…attack — тип jailbreak-атаки на LLM, использующий этический релятивизм и двойные стандарты для обхода ограничений модели. ## Где встречается - [[881. Что…
- answerКак работает model inversion атака (восстановление training данных)?
…Вики/Priority\|приоритет]] на естественные данные). --- ## 3. Типы Model Inversion атак | Тип атаки | Доступ к модели | Сложность | Пример | |-----------|----------------|-----------|--------| | **White-box…
- wikiXML/JSON payloads
# XML/JSON payloads ## Определение Вектор атаки на LLM через структурированные данные (XML/JSON), используемый для переопределения поведения модели; часть таксономии…
- wikiLoss-based attack
# Loss-based attack ## Определение Простой метод атаки на членство (MIA), основанный на сравнении значения функции потерь или перплексии модели на…
- wikiReference-based attack
# Reference-based attack ## Определение Метод атаки на членство (membership inference attack), использующий теневые модели и классификатор для определения, входили ли…
- wikiDAN
…Пример ручной атаки на безопасность модели. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127…
- answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…запуск GCG/AutoDAN на текущей версии модели) генерирует тысячи атакующих примеров. 2. Создаётся [[Вики/dataset\|датасет]]: `(вредоносный [[Вики/Prompt engineering…
- wikiLoss-based MIA
# Loss-based MIA ## Определение Вариант атаки на членство, использующий значение потерь модели на примере для определения, входил ли он в…
- wikiAzure AI Red Team Tools
…Набор инструментов от Azure для red-teaming LLM, позволяющий генерировать prompt injection и multi-turn атаки для проверки robustness модели…
- answerКак тестировать robustness LLM к adversarial inputs?
…Классификация adversarial атак на LLM Атаки можно разделить по уровню вмешательства и доступной информации о модели. | Тип атаки | Примеры | Знания…
- wikiGenerative attacks
…Используются для оценки устойчивости модели к adversarial воздействиям. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikiWord-level attack
# Word-level attack ## Определение Тип adversarial-атаки на NLP-модели, при которой изменяются отдельные слова (замена синонимами, перестановка) для искажения…
- wikiEmbedding Rotation
…атак на RAG, заключающийся в периодическом пересчёте всех эмбеддингов с использованием новой модели или случайного сида, что затрудняет атаки типа…
- answerКак работает membership inference атака на LLM?
…Атака опирается на разницу в поведении модели на «виденных» (из train) и «невиденных» данных: для заученных примеров [[Вики/model\|модель…
- answerКак работает adversarial example для embedding моделей (атака на retrieval)?
…Атаки делятся на [[Вики/White-box\|white-box]] (требуют доступа к градиентам модели) и [[Вики/Black-box attack\|black-box…
- wikiSentence-level attack
# Sentence-level attack ## Определение Вид adversarial-атаки на NLP-модели, при которой заменяются слова или фразы на семантически близкие альтернативы…
- answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…1. **[[Вики/red teaming\|Red team]]** проводит атаки на текущую версию модели (или защитных слоёв). 2. **[[Вики/purple team\|Purple…
- wikiAdversarial attacks
# Adversarial attacks ## Определение Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI. ## Где встречается - [[340…
- wikiPrefix injection
# Prefix injection ## Определение Тип атаки, при которой в начало ответа модели вставляется фраза, заставляющая модель продолжить в нужном направлении. ## Где…
- wikigradient-based
# gradient-based ## Определение Методы атак, использующие градиенты модели для генерации состязательных входов, например Greedy Coordinate Gradient (GCG). Требуют white-box…
- answerКак делать adversarial evals для RAG (проверка на устойчивость)?
…Типы атак на RAG ### 2.1 Атаки на входной запрос Это наиболее доступные атаки, не требующие доступа к модели. #### Typo…
- answerКак работает model stealing attack и как защититься?
…model)** — модель, обученная злоумышленником на запросах к оригинальной модели, чтобы аппроксимировать её поведение. --- ## 2. Механизм атаки: query → log → train Атака…
- wikiTextFooler
# TextFooler ## Определение Black-box метод атаки на NLP-модели, заменяющий важные слова на синонимы с сохранением грамматической правильности. Используется для…
- wikiwatermarking
…Позволяет детектировать копирование и атаки экстракции модели. ## Где встречается - [[351. Как работает model stealing attack и как защититься|351. Как…
- answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…вставлять ключевые слова, повторять фразы, использовать синонимы. - Применять генеративные модели для создания текста, который будет похож на запросы (например, обучить…
- answerЧто такое data poisoning атака на fine-tuning и как защититься?
…Как работает membership inference атака на LLM\|602]] | Adversarial attacks на LLM (входные атаки) | | [[603. Что такое watermarking для LLM…
- answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?
…Сертификация выдаётся на ограниченный срок (обычно 1 год) и требует повторного прохождения при значительных изменениях модели (fine-tuning, смена архитектуры…
- answerОбъясните разницу между NeMo Guardrails и Garak. Когда что используется?
…атаки для поиска уязвимостей модели. [[Вики/NeMo Guardrails\|Guardrails]] предотвращает инциденты, [[Вики/Garak\|Garak]] — помогает их найти и устранить на…
- answerЧто такое data poisoning атака на fine-tuning и как защититься?
…повлиять на адаптеры. --- ## Пет-проект для закрепления [[Вики/Task\|Задача]] Реализовать симуляцию data poisoning атаки на fine-tuning модели для…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить adversarial evaluation для RAG
…Прогнать атаки на тех же 50 запросах (или на 20, если время ограничено). 4. Посчитать [[Вики/accuracy drop\|accuracy drop…
- wikiadversarial training
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20…
- answerЧто такое Model Poisoning в контексте RAG и как защититься?
…Model Poisoning (отравление модели) [[Вики/Model Poisoning\|Model Poisoning]] — класс атак на машинное [[Вики/training\|обучение]], при котором злоумышленник манипулирует…
- answerКак работает model stealing attack (экстракция модели через API)?
…Вики/training\|обучение]] модели, отличающей запросы реальных пользователей от атакующих. ## 7. Пример кода (симуляция атаки на логитах) ```python import torch…
- wikiData augmentation
…Как вы избегаете переобучения при fine-tuning на маленьком датасете]] - [[129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20…
- answerНазовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?
…Эти риски охватывают как атаки на саму [[Вики/model\|модель]], так и на инфраструктуру, и требуют приоритетного внимания при проектировании…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…модель дообучается на adversarial-примерах, чтобы научиться распознавать и отклонять атаки. [[Вики/red teaming\|Red teaming]] — процесс имитации атак на…
- answerКак работает model extraction attack и как защититься?
…модели) [[Вики/model stealing attack\|Model extraction attack]] — это тип [[Вики/adversarial input\|adversarial attack]] (враждебной атаки), направленный на кражу…
- answerЧто такое secure aggregation для федеративного обучения LLM?
…Пример атаки (Zhu et al., 2019): по градиентам от модели на изображениях можно восстановить исходное изображение с высоким качеством. Aggregation…