Поиск
- wikiadversarial input
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiHotFlip
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiadversarial examples
# adversarial examples ## Определение Специально сконструированные входные данные, вызывающие ошибочное поведение LLM, используемые для тестирования robustness и безопасности. ## Где встречается - [[106…
- wikiTextFooler
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiadversarial training
# adversarial training ## Определение Метод повышения устойчивости модели к атакам путём включения состязательных примеров (adversarial examples) в обучающую выборку. Используется для…
- wikiBERT-Attack
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiadversarial hard negative
# adversarial hard negative ## Определение Метод генерации сложных негативных примеров для обучения retrieval: градиентный спуск модифицирует эмбеддинг документа так, чтобы увеличить…
- wikiAdversarial generation
# Adversarial generation ## Определение Метод генерации синтетических данных, при котором LLM создаёт сложные или граничные примеры (например, вопросы), чтобы выявить пробелы…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Разница между Adversarial Training и Adversarial Fine-Tuning | Характеристика | Adversarial Training | Adversarial Fine-Tuning | |----------------|----------------------|--------------------------| | Этап | Обычно во время предобучения с…
- wikiUniversal Adversarial Triggers
# Universal Adversarial Triggers ## Определение Короткие последовательности токенов, которые при добавлении к любому входу заставляют модель генерировать заданный вывод. Используются для…
- wikiadversarial patch
# adversarial patch ## Определение Физический или визуальный паттерн, добавляемый к изображению, который заставляет мультимодальную модель неправильно классифицировать объект или игнорировать команды…
- wikiAdversarial pattern
# Adversarial pattern ## Определение Характерные паттерны в запросе, указывающие на попытку атаки; используются для обнаружения вредоносных входов. ## Где встречается - [[800+ вопросов…
- wikiadversarial retrieval
…Что такое adversarial retrieval (атака на retrieval компонент RAG)|599. Что такое adversarial retrieval (атака на retrieval компонент RAG)]] - [[800…
- wikiadversarial prompt detection
# adversarial prompt detection ## Определение Классификация промпта как вредоносного или безопасного в реальном времени перед передачей основному LLM для защиты от…
- wikiAdversarial Examples for Code
# Adversarial Examples for Code ## Определение Генерация примеров кода, устойчивых к поверхностным изменениям, для повышения robustness модели. ## Где встречается - [[272. Настроить…
- wikiaccuracy drop
# accuracy drop ## Определение Разность точности модели на чистых и атакованных (adversarial) примерах. Используется для измерения уязвимости модели к состязательным атакам…
- wikiAdversarial suffix
# Adversarial suffix ## Определение Специально подобранная последовательность токенов, добавляемая к запросу для jailbreak LLM, чтобы заставить модель выдать запрещённый контент. ## Где…
- wikiTextAttack
# TextAttack ## Определение Библиотека для генерации adversarial примеров и тестирования устойчивости NLP-моделей к атакам. Включает встроенные методы атак (TextFooler, HotFlip…
- answerКак вы тестируете robustness LLM к adversarial input (не только injection)?
…Основные подходы: - [[Вики/adversarial training\|Adversarial training]] — добавление [[Вики/Adversarial generation\|adversarial]] примеров в обучающую выборку. [[Вики/model\|Модель]] учится…
- wikired teaming
# red teaming ## Определение Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и…
- wikiAdversarial attacks
# Adversarial attacks ## Определение Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI. ## Где встречается - [[340…
- wikiDeepWordBug
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiградиентная оптимизация
# градиентная оптимизация ## Определение Метод белого ящика для генерации adversarial примеров (например, текста) путём оптимизации через градиенты модели, чтобы эмбеддинг стал…
- answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…Что такое adversarial retrieval (атака на retrieval компонент)? ## Краткий тезис [[Вики/adversarial retrieval\|Adversarial retrieval]] — это класс атак на RAG…
- wikiBlack-box attack
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiInvariant violation rate
# Invariant violation rate ## Определение Доля нарушенных инвариантов при тестировании устойчивости LLM к adversarial inputs. ## Где встречается - [[890. Как тестировать robustness…
- wikiSpell correction
# Spell correction ## Определение Метод защиты от adversarial запросов в RAG, а также препроцессинг запросов для исправления опечаток перед retrieval. ## Где…
- wikiwhite-box jailbreak
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiCertified robustness
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiadversarial filtering
# adversarial filtering ## Определение Создание контрпримеров для проверки, использует ли модель shortcuts вместо истинного конструкта, применяется в meta-evaluation. ## Где встречается…
- wikiAdversarial prompts
# Adversarial prompts ## Определение Специально сконструированные промпты, вызывающие характерные ошибки модели; используются для fingerprinting или проведения атак. ## Где встречается - [[619. Как…
- wikirobustness
# robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…
- wikiAdversarial query
# Adversarial query ## Определение Манипуляция запросом для искажения результатов retrieval, например, внедрение ядовитых данных с целью poisoning. ## Где встречается - [[598. Как…
- wikiPlan deviation score
# Plan deviation score ## Определение Оценка того, насколько итоговый план агента отличается от ожидаемого после adversarial-атаки, используется для тестирования робастности…
- wikiRandomized Smoothing
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiAdversarial Instructions
# Adversarial Instructions ## Определение Инструкции с противоречиями, шумом или неявными отсылками для проверки способности модели следовать сложным инструкциям и её робастности…
- wikiAdvGLUE
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiBAE
…Как работает adversarial example для embedding моделей (атака на retrieval)|611. Как работает adversarial example для embedding моделей (атака на…
- wikiAdversarial POPE
# Adversarial POPE ## Определение Вариант метрики POPE с семантически близкими негативными объектами, предназначенный для более точной оценки галлюцинаций в мультимодальных моделях…
- wikiCharacter-level attack
# Character-level attack ## Определение Атака на уровне символов (вставка, удаление, замена), например DeepWordBug, используемая для тестирования устойчивости LLM к adversarial…
- wikiadversarial probing
# adversarial probing ## Определение Создание специальных промптов для провоцирования нежелательного поведения модели с целью оценки её безопасности и обнаружения уязвимостей. ## Где…
- wikiANLI
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- wikiCLARE
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Что такое adversarial fine-tuning для защиты от jailbreak? ## Краткий тезис [[Вики/adversarial training\|Adversarial fine-tuning]] — это метод повышения…
- wikitool injection
…Как делать adversarial evals для RAG (проверка на устойчивость)|867. Как делать adversarial evals для RAG (проверка на устойчивость)]] - [[890…
- wikiAdversarial reprogramming
# Adversarial reprogramming ## Определение Метод, при котором замороженная модель перенаправляется на новую задачу через обучение входных данных (например, токенов), используя градиентный…
- wikicurriculum adversarial training
# curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…
- wikiHybrid detection
# Hybrid detection ## Определение Комбинация быстрых эвристических правил и ML-классификатора для обнаружения adversarial промптов в реальном времени с балансом задержки…
- wikiTypo attack
…Используется в adversarial evaluation. ## Где встречается - [[867. Как делать adversarial evals для RAG (проверка на устойчивость)|867. Как делать adversarial…
- answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…Варианты - [[Вики/ensemble adversarial training\|Ensemble adversarial training]] — использовать атаки с разных моделей. - [[Вики/curriculum adversarial training\|Curriculum adversarial training…