Поиск

  • wikiadversarial input

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiHotFlip

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiadversarial examples

    # adversarial examples ## Определение Специально сконструированные входные данные, вызывающие ошибочное поведение LLM, используемые для тестирования robustness и безопасности. ## Где встречается - [[106…

  • wikiTextFooler

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiadversarial training

    # adversarial training ## Определение Метод повышения устойчивости модели к атакам путём включения состязательных примеров (adversarial examples) в обучающую выборку. Используется для…

  • wikiBERT-Attack

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiadversarial hard negative

    # adversarial hard negative ## Определение Метод генерации сложных негативных примеров для обучения retrieval: градиентный спуск модифицирует эмбеддинг документа так, чтобы увеличить…

  • wikiAdversarial generation

    # Adversarial generation ## Определение Метод генерации синтетических данных, при котором LLM создаёт сложные или граничные примеры (например, вопросы), чтобы выявить пробелы…

  • answerЧто такое adversarial fine-tuning для защиты от jailbreak?

    …Разница между Adversarial Training и Adversarial Fine-Tuning | Характеристика | Adversarial Training | Adversarial Fine-Tuning | |----------------|----------------------|--------------------------| | Этап | Обычно во время предобучения с…

  • wikiUniversal Adversarial Triggers

    # Universal Adversarial Triggers ## Определение Короткие последовательности токенов, которые при добавлении к любому входу заставляют модель генерировать заданный вывод. Используются для…

  • wikiadversarial patch

    # adversarial patch ## Определение Физический или визуальный паттерн, добавляемый к изображению, который заставляет мультимодальную модель неправильно классифицировать объект или игнорировать команды…

  • wikiAdversarial pattern

    # Adversarial pattern ## Определение Характерные паттерны в запросе, указывающие на попытку атаки; используются для обнаружения вредоносных входов. ## Где встречается - [[800+ вопросов…

  • wikiadversarial retrieval

    …Что такое adversarial retrieval (атака на retrieval компонент RAG)|599. Что такое adversarial retrieval (атака на retrieval компонент RAG)]] - [[800…

  • wikiadversarial prompt detection

    # adversarial prompt detection ## Определение Классификация промпта как вредоносного или безопасного в реальном времени перед передачей основному LLM для защиты от…

  • wikiAdversarial Examples for Code

    # Adversarial Examples for Code ## Определение Генерация примеров кода, устойчивых к поверхностным изменениям, для повышения robustness модели. ## Где встречается - [[272. Настроить…

  • wikiaccuracy drop

    # accuracy drop ## Определение Разность точности модели на чистых и атакованных (adversarial) примерах. Используется для измерения уязвимости модели к состязательным атакам…

  • wikiAdversarial suffix

    # Adversarial suffix ## Определение Специально подобранная последовательность токенов, добавляемая к запросу для jailbreak LLM, чтобы заставить модель выдать запрещённый контент. ## Где…

  • wikiTextAttack

    # TextAttack ## Определение Библиотека для генерации adversarial примеров и тестирования устойчивости NLP-моделей к атакам. Включает встроенные методы атак (TextFooler, HotFlip…

  • answerКак вы тестируете robustness LLM к adversarial input (не только injection)?

    …Основные подходы: - [[Вики/adversarial training\|Adversarial training]] — добавление [[Вики/Adversarial generation\|adversarial]] примеров в обучающую выборку. [[Вики/model\|Модель]] учится…

  • wikired teaming

    # red teaming ## Определение Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и…

  • wikiAdversarial attacks

    # Adversarial attacks ## Определение Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI. ## Где встречается - [[340…

  • wikiDeepWordBug

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiградиентная оптимизация

    # градиентная оптимизация ## Определение Метод белого ящика для генерации adversarial примеров (например, текста) путём оптимизации через градиенты модели, чтобы эмбеддинг стал…

  • answerЧто такое adversarial retrieval (атака на retrieval компонент)?

    …Что такое adversarial retrieval (атака на retrieval компонент)? ## Краткий тезис [[Вики/adversarial retrieval\|Adversarial retrieval]] — это класс атак на RAG…

  • wikiBlack-box attack

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiInvariant violation rate

    # Invariant violation rate ## Определение Доля нарушенных инвариантов при тестировании устойчивости LLM к adversarial inputs. ## Где встречается - [[890. Как тестировать robustness…

  • wikiSpell correction

    # Spell correction ## Определение Метод защиты от adversarial запросов в RAG, а также препроцессинг запросов для исправления опечаток перед retrieval. ## Где…

  • wikiwhite-box jailbreak

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiCertified robustness

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiadversarial filtering

    # adversarial filtering ## Определение Создание контрпримеров для проверки, использует ли модель shortcuts вместо истинного конструкта, применяется в meta-evaluation. ## Где встречается…

  • wikiAdversarial prompts

    # Adversarial prompts ## Определение Специально сконструированные промпты, вызывающие характерные ошибки модели; используются для fingerprinting или проведения атак. ## Где встречается - [[619. Как…

  • wikirobustness

    # robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…

  • wikiAdversarial query

    # Adversarial query ## Определение Манипуляция запросом для искажения результатов retrieval, например, внедрение ядовитых данных с целью poisoning. ## Где встречается - [[598. Как…

  • wikiPlan deviation score

    # Plan deviation score ## Определение Оценка того, насколько итоговый план агента отличается от ожидаемого после adversarial-атаки, используется для тестирования робастности…

  • wikiRandomized Smoothing

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiAdversarial Instructions

    # Adversarial Instructions ## Определение Инструкции с противоречиями, шумом или неявными отсылками для проверки способности модели следовать сложным инструкциям и её робастности…

  • wikiAdvGLUE

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiBAE

    …Как работает adversarial example для embedding моделей (атака на retrieval)|611. Как работает adversarial example для embedding моделей (атака на…

  • wikiAdversarial POPE

    # Adversarial POPE ## Определение Вариант метрики POPE с семантически близкими негативными объектами, предназначенный для более точной оценки галлюцинаций в мультимодальных моделях…

  • wikiCharacter-level attack

    # Character-level attack ## Определение Атака на уровне символов (вставка, удаление, замена), например DeepWordBug, используемая для тестирования устойчивости LLM к adversarial

  • wikiadversarial probing

    # adversarial probing ## Определение Создание специальных промптов для провоцирования нежелательного поведения модели с целью оценки её безопасности и обнаружения уязвимостей. ## Где…

  • wikiANLI

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • wikiCLARE

    …Как вы тестируете robustness LLM к adversarial input (не только injection)|298. Как вы тестируете robustness LLM к adversarial input…

  • answerЧто такое adversarial fine-tuning для защиты от jailbreak?

    …Что такое adversarial fine-tuning для защиты от jailbreak? ## Краткий тезис [[Вики/adversarial training\|Adversarial fine-tuning]] — это метод повышения…

  • wikitool injection

    …Как делать adversarial evals для RAG (проверка на устойчивость)|867. Как делать adversarial evals для RAG (проверка на устойчивость)]] - [[890…

  • wikiAdversarial reprogramming

    # Adversarial reprogramming ## Определение Метод, при котором замороженная модель перенаправляется на новую задачу через обучение входных данных (например, токенов), используя градиентный…

  • wikicurriculum adversarial training

    # curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…

  • wikiHybrid detection

    # Hybrid detection ## Определение Комбинация быстрых эвристических правил и ML-классификатора для обнаружения adversarial промптов в реальном времени с балансом задержки…

  • wikiTypo attack

    …Используется в adversarial evaluation. ## Где встречается - [[867. Как делать adversarial evals для RAG (проверка на устойчивость)|867. Как делать adversarial

  • answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?

    …Варианты - [[Вики/ensemble adversarial training\|Ensemble adversarial training]] — использовать атаки с разных моделей. - [[Вики/curriculum adversarial training\|Curriculum adversarial training…