Поиск

wikiadversarial input
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiHotFlip
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiadversarial examples
# adversarial examples ## Определение Специально сконструированные входные данные, вызывающие ошибочное поведение LLM, используемые для тестирования robustness и безопасности. ## Где встречается - [[106…
wikiTextFooler
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiadversarial training
# adversarial training ## Определение Метод повышения устойчивости модели к атакам путём включения состязательных примеров (adversarial examples) в обучающую выборку. Используется для…
wikiBERT-Attack
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiadversarial hard negative
# adversarial hard negative ## Определение Метод генерации сложных негативных примеров для обучения retrieval: градиентный спуск модифицирует эмбеддинг документа так, чтобы увеличить…
wikiAdversarial generation
# Adversarial generation ## Определение Метод генерации синтетических данных, при котором LLM создаёт сложные или граничные примеры (например, вопросы), чтобы выявить пробелы…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Разница между Adversarial Training и Adversarial Fine-Tuning | Характеристика | Adversarial Training | Adversarial Fine-Tuning | |----------------|----------------------|--------------------------| | Этап | Обычно во время предобучения с…
wikiUniversal Adversarial Triggers
# Universal Adversarial Triggers ## Определение Короткие последовательности токенов, которые при добавлении к любому входу заставляют модель генерировать заданный вывод. Используются для…
wikiadversarial patch
# adversarial patch ## Определение Физический или визуальный паттерн, добавляемый к изображению, который заставляет мультимодальную модель неправильно классифицировать объект или игнорировать команды…
wikiAdversarial pattern
# Adversarial pattern ## Определение Характерные паттерны в запросе, указывающие на попытку атаки; используются для обнаружения вредоносных входов. ## Где встречается - [[800+ вопросов…
wikiadversarial retrieval
…Что такое adversarial retrieval (атака на retrieval компонент RAG)|599. Что такое adversarial retrieval (атака на retrieval компонент RAG)]] - [[800…
wikiadversarial prompt detection
# adversarial prompt detection ## Определение Классификация промпта как вредоносного или безопасного в реальном времени перед передачей основному LLM для защиты от…
wikiAdversarial Examples for Code
# Adversarial Examples for Code ## Определение Генерация примеров кода, устойчивых к поверхностным изменениям, для повышения robustness модели. ## Где встречается - [[272. Настроить…
wikiaccuracy drop
# accuracy drop ## Определение Разность точности модели на чистых и атакованных (adversarial) примерах. Используется для измерения уязвимости модели к состязательным атакам…
wikiAdversarial suffix
# Adversarial suffix ## Определение Специально подобранная последовательность токенов, добавляемая к запросу для jailbreak LLM, чтобы заставить модель выдать запрещённый контент. ## Где…
wikiTextAttack
# TextAttack ## Определение Библиотека для генерации adversarial примеров и тестирования устойчивости NLP-моделей к атакам. Включает встроенные методы атак (TextFooler, HotFlip…
answerКак вы тестируете robustness LLM к adversarial input (не только injection)?
…Основные подходы: - [[Вики/adversarial training\|Adversarial training]] — добавление [[Вики/Adversarial generation\|adversarial]] примеров в обучающую выборку. [[Вики/model\|Модель]] учится…
wikired teaming
# red teaming ## Определение Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и…
wikiAdversarial attacks
# Adversarial attacks ## Определение Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI. ## Где встречается - [[340…
wikiDeepWordBug
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiградиентная оптимизация
# градиентная оптимизация ## Определение Метод белого ящика для генерации adversarial примеров (например, текста) путём оптимизации через градиенты модели, чтобы эмбеддинг стал…
answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…Что такое adversarial retrieval (атака на retrieval компонент)? ## Краткий тезис [[Вики/adversarial retrieval\|Adversarial retrieval]] — это класс атак на RAG…
wikiBlack-box attack
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiInvariant violation rate
# Invariant violation rate ## Определение Доля нарушенных инвариантов при тестировании устойчивости LLM к adversarial inputs. ## Где встречается - [[890. Как тестировать robustness…
wikiSpell correction
# Spell correction ## Определение Метод защиты от adversarial запросов в RAG, а также препроцессинг запросов для исправления опечаток перед retrieval. ## Где…
wikiwhite-box jailbreak
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiCertified robustness
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiadversarial filtering
# adversarial filtering ## Определение Создание контрпримеров для проверки, использует ли модель shortcuts вместо истинного конструкта, применяется в meta-evaluation. ## Где встречается…
wikiAdversarial prompts
# Adversarial prompts ## Определение Специально сконструированные промпты, вызывающие характерные ошибки модели; используются для fingerprinting или проведения атак. ## Где встречается - [[619. Как…
wikirobustness
# robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…
wikiAdversarial query
# Adversarial query ## Определение Манипуляция запросом для искажения результатов retrieval, например, внедрение ядовитых данных с целью poisoning. ## Где встречается - [[598. Как…
wikiPlan deviation score
# Plan deviation score ## Определение Оценка того, насколько итоговый план агента отличается от ожидаемого после adversarial-атаки, используется для тестирования робастности…
wikiRandomized Smoothing
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiAdversarial Instructions
# Adversarial Instructions ## Определение Инструкции с противоречиями, шумом или неявными отсылками для проверки способности модели следовать сложным инструкциям и её робастности…
wikiAdvGLUE
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiBAE
…Как работает adversarial example для embedding моделей (атака на retrieval)|611. Как работает adversarial example для embedding моделей (атака на…
wikiAdversarial POPE
# Adversarial POPE ## Определение Вариант метрики POPE с семантически близкими негативными объектами, предназначенный для более точной оценки галлюцинаций в мультимодальных моделях…
wikiCharacter-level attack
# Character-level attack ## Определение Атака на уровне символов (вставка, удаление, замена), например DeepWordBug, используемая для тестирования устойчивости LLM к adversarial…
wikiadversarial probing
# adversarial probing ## Определение Создание специальных промптов для провоцирования нежелательного поведения модели с целью оценки её безопасности и обнаружения уязвимостей. ## Где…
wikiANLI
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
wikiCLARE
…Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Что такое adversarial fine-tuning для защиты от jailbreak? ## Краткий тезис [[Вики/adversarial training\|Adversarial fine-tuning]] — это метод повышения…
wikitool injection
…Как делать adversarial evals для RAG (проверка на устойчивость)|867. Как делать adversarial evals для RAG (проверка на устойчивость)]] - [[890…
wikiAdversarial reprogramming
# Adversarial reprogramming ## Определение Метод, при котором замороженная модель перенаправляется на новую задачу через обучение входных данных (например, токенов), используя градиентный…
wikicurriculum adversarial training
# curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…
wikiHybrid detection
# Hybrid detection ## Определение Комбинация быстрых эвристических правил и ML-классификатора для обнаружения adversarial промптов в реальном времени с балансом задержки…
wikiTypo attack
…Используется в adversarial evaluation. ## Где встречается - [[867. Как делать adversarial evals для RAG (проверка на устойчивость)|867. Как делать adversarial…
answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…Варианты - [[Вики/ensemble adversarial training\|Ensemble adversarial training]] — использовать атаки с разных моделей. - [[Вики/curriculum adversarial training\|Curriculum adversarial training…