Поиск

wikiJailbreak-атаки
# Jailbreak-атаки ## Определение Попытки обойти ограничения модели для генерации небезопасного контента. Являются ключевым объектом red teaming и тестирования безопасности. ## Где…
answerЧто такое red teaming для LLM и как его проводить?
…старые атаки должны блокироваться. - Также проверяют, что защита не ухудшила качество работы модели на легитимных запросах (нет ложных срабатываний). ### 4…
answerКак вы проводите red teaming LLM-приложения? Назовите 3 техники.
…найденный для одной модели, может не работать на другой. --- ## 5. Сравнение техник | Характеристика | Hand-crafted jailbreaks | Генеративные атаки | Градиентные атаки…
answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…на целевой модели. 2. [[Вики/Evaluation\|Оценка]]: считаем метрики (ASR, refusal rate, FPR). 3. Анализ: смотрим на успешные атаки — какие…
answerЧто такое jailbreak taxonomy (полная классификация)?
…Infrastructure-based атаки (инфраструктурные) Атаки на саму архитектуру [[Вики/GPT-4o\|LLM]] или на данные, доступные модели. ### 5.1 Prompt…
answerКак вы тестируете robustness LLM к adversarial input (не только injection)?
…Атаки делятся на [[Вики/White-box\|white-box]] (доступ к весам и градиентам модели) и [[Вики/Black-box attack\|black…
wikitransferability
# transferability ## Определение Способность атаки, созданной для одной модели, эффективно работать на другой модели. ## Где встречается - [[355. Как вы защищаете LLM…
wikiMultilingual attacks
# Multilingual attacks ## Определение Атаки с использованием редких языков для обхода защит, а также способность модели работать с несколькими языками в…
wikiWhite-box
…модели. Позволяет проводить градиентные атаки, такие как FGSM. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…
answerКак работает membership inference через logits (разница в вероятностях)?
…Факторы, влияющие на успех атаки | Фактор | Влияние на атаку | |--------|------------------| | Размер модели (больше параметров) | Увеличивает запоминание → атака легче | | Количество эпох обучения…
answerЧто такое MITRE ATLAS и как он связан с MITRE ATT&CK?
…цель атаки (например, «Получение доступа к модели»). Техника (Technique) — способ достижения этой цели (например, «Атака через инверсию модели»). Процедура (Procedure…
answerКак работает membership inference атака на LLM?
…требует доступа к [[Вики/reference модели\|reference модели]], которая должна быть обучена на похожих данных. --- ## 4. Метрики успешности атаки Для…
wikimoral reasoning attack
…attack — тип jailbreak-атаки на LLM, использующий этический релятивизм и двойные стандарты для обхода ограничений модели. ## Где встречается - [[881. Что…
answerКак работает model inversion атака (восстановление training данных)?
…Вики/Priority\|приоритет]] на естественные данные). --- ## 3. Типы Model Inversion атак | Тип атаки | Доступ к модели | Сложность | Пример | |-----------|----------------|-----------|--------| | **White-box…
wikiXML/JSON payloads
# XML/JSON payloads ## Определение Вектор атаки на LLM через структурированные данные (XML/JSON), используемый для переопределения поведения модели; часть таксономии…
wikiLoss-based attack
# Loss-based attack ## Определение Простой метод атаки на членство (MIA), основанный на сравнении значения функции потерь или перплексии модели на…
wikiReference-based attack
# Reference-based attack ## Определение Метод атаки на членство (membership inference attack), использующий теневые модели и классификатор для определения, входили ли…
wikiDAN
…Пример ручной атаки на безопасность модели. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127…
answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…запуск GCG/AutoDAN на текущей версии модели) генерирует тысячи атакующих примеров. 2. Создаётся [[Вики/dataset\|датасет]]: `(вредоносный [[Вики/Prompt engineering…
wikiLoss-based MIA
# Loss-based MIA ## Определение Вариант атаки на членство, использующий значение потерь модели на примере для определения, входил ли он в…
wikiAzure AI Red Team Tools
…Набор инструментов от Azure для red-teaming LLM, позволяющий генерировать prompt injection и multi-turn атаки для проверки robustness модели…
answerКак тестировать robustness LLM к adversarial inputs?
…Классификация adversarial атак на LLM Атаки можно разделить по уровню вмешательства и доступной информации о модели. | Тип атаки | Примеры | Знания…
wikiGenerative attacks
…Используются для оценки устойчивости модели к adversarial воздействиям. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3…
wikiWord-level attack
# Word-level attack ## Определение Тип adversarial-атаки на NLP-модели, при которой изменяются отдельные слова (замена синонимами, перестановка) для искажения…
wikiEmbedding Rotation
…атак на RAG, заключающийся в периодическом пересчёте всех эмбеддингов с использованием новой модели или случайного сида, что затрудняет атаки типа…
answerКак работает membership inference атака на LLM?
…Атака опирается на разницу в поведении модели на «виденных» (из train) и «невиденных» данных: для заученных примеров [[Вики/model\|модель…
answerКак работает adversarial example для embedding моделей (атака на retrieval)?
…Атаки делятся на [[Вики/White-box\|white-box]] (требуют доступа к градиентам модели) и [[Вики/Black-box attack\|black-box…
wikiSentence-level attack
# Sentence-level attack ## Определение Вид adversarial-атаки на NLP-модели, при которой заменяются слова или фразы на семантически близкие альтернативы…
answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…1. **[[Вики/red teaming\|Red team]]** проводит атаки на текущую версию модели (или защитных слоёв). 2. **[[Вики/purple team\|Purple…
wikiAdversarial attacks
# Adversarial attacks ## Определение Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI. ## Где встречается - [[340…
wikiPrefix injection
# Prefix injection ## Определение Тип атаки, при которой в начало ответа модели вставляется фраза, заставляющая модель продолжить в нужном направлении. ## Где…
wikigradient-based
# gradient-based ## Определение Методы атак, использующие градиенты модели для генерации состязательных входов, например Greedy Coordinate Gradient (GCG). Требуют white-box…
answerКак делать adversarial evals для RAG (проверка на устойчивость)?
…Типы атак на RAG ### 2.1 Атаки на входной запрос Это наиболее доступные атаки, не требующие доступа к модели. #### Typo…
answerКак работает model stealing attack и как защититься?
…model)** — модель, обученная злоумышленником на запросах к оригинальной модели, чтобы аппроксимировать её поведение. --- ## 2. Механизм атаки: query → log → train Атака…
wikiTextFooler
# TextFooler ## Определение Black-box метод атаки на NLP-модели, заменяющий важные слова на синонимы с сохранением грамматической правильности. Используется для…
wikiwatermarking
…Позволяет детектировать копирование и атаки экстракции модели. ## Где встречается - [[351. Как работает model stealing attack и как защититься|351. Как…
answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…вставлять ключевые слова, повторять фразы, использовать синонимы. - Применять генеративные модели для создания текста, который будет похож на запросы (например, обучить…
answerЧто такое data poisoning атака на fine-tuning и как защититься?
…Как работает membership inference атака на LLM\|602]] | Adversarial attacks на LLM (входные атаки) | | [[603. Что такое watermarking для LLM…
answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?
…Сертификация выдаётся на ограниченный срок (обычно 1 год) и требует повторного прохождения при значительных изменениях модели (fine-tuning, смена архитектуры…
answerОбъясните разницу между NeMo Guardrails и Garak. Когда что используется?
…атаки для поиска уязвимостей модели. [[Вики/NeMo Guardrails\|Guardrails]] предотвращает инциденты, [[Вики/Garak\|Garak]] — помогает их найти и устранить на…
answerЧто такое data poisoning атака на fine-tuning и как защититься?
…повлиять на адаптеры. --- ## Пет-проект для закрепления [[Вики/Task\|Задача]] Реализовать симуляцию data poisoning атаки на fine-tuning модели для…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить adversarial evaluation для RAG
…Прогнать атаки на тех же 50 запросах (или на 20, если время ограничено). 4. Посчитать [[Вики/accuracy drop\|accuracy drop…
wikiadversarial training
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20…
answerЧто такое Model Poisoning в контексте RAG и как защититься?
…Model Poisoning (отравление модели) [[Вики/Model Poisoning\|Model Poisoning]] — класс атак на машинное [[Вики/training\|обучение]], при котором злоумышленник манипулирует…
answerКак работает model stealing attack (экстракция модели через API)?
…Вики/training\|обучение]] модели, отличающей запросы реальных пользователей от атакующих. ## 7. Пример кода (симуляция атаки на логитах) ```python import torch…
wikiData augmentation
…Как вы избегаете переобучения при fine-tuning на маленьком датасете]] - [[129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20…
answerНазовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?
…Эти риски охватывают как атаки на саму [[Вики/model\|модель]], так и на инфраструктуру, и требуют приоритетного внимания при проектировании…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…модель дообучается на adversarial-примерах, чтобы научиться распознавать и отклонять атаки. [[Вики/red teaming\|Red teaming]] — процесс имитации атак на…
answerКак работает model extraction attack и как защититься?
…модели) [[Вики/model stealing attack\|Model extraction attack]] — это тип [[Вики/adversarial input\|adversarial attack]] (враждебной атаки), направленный на кражу…
answerЧто такое secure aggregation для федеративного обучения LLM?
…Пример атаки (Zhu et al., 2019): по градиентам от модели на изображениях можно восстановить исходное изображение с высоким качеством. Aggregation…