Поиск

  • wikiIndirect Prompt Injection

    # Indirect Prompt Injection ## Определение Злоумышленник загружает документ с инструкцией, внедряя вредоносный промпт через RAG ## Где встречается - [[67. Что такое Prompt

  • wikivisual prompt injection

    # visual prompt injection ## Определение Атака на VL-модели, при которой вредоносные инструкции встраиваются в визуальный контент (например, изображения), заставляя модель…

  • wikiVisual Prompt Injection Dataset

    # Visual Prompt Injection Dataset ## Определение Датасет, содержащий примеры визуальных промпт-инъекций для тестирования защитных механизмов VL-моделей. ## Где встречается - [[621…

  • wikiPrompt injection

    # Prompt injection ## Определение Атака, при которой вредоносный пользователь внедряет инструкции, заставляющие модель игнорировать системный промпт или выполнять нежелательные действия; один…

  • wikiRandomisation промптов

    # Randomisation промптов ## Определение Добавление случайных токенов или префиксов в системный промпт для усложнения prompt injection атак. ## Где встречается - [[67. Что…

  • wikiinjection classifier

    # injection classifier ## Определение Модель или компонент, который классифицирует пользовательский ввод на наличие попыток prompt injection, фильтруя опасные запросы. ## Где встречается…

  • answerЧто такое Prompt Injection и как вы защищаетесь?

    …Различают **[[Вики/Prompt injection\|direct prompt injection]]** ([[Вики/Prompt injection\|инъекция]] напрямую в диалог с моделью) и **[[Вики/Indirect Prompt

  • wikiInput sanitization

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[298. Как вы…

  • wikiмультимодальная изоляция

    …Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…

  • wikiPrinciple of Least Privilege

    …Например, только чтение, без права удаления, для защиты от Prompt Injection. ## Где встречается - [[67. Что такое Prompt Injection и как…

  • wikiLLM-as-firewall

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[800+ вопросов|800…

  • wikisafety filter

    # safety filter ## Определение Компонент, выполняющий вторую проверку ответа модели на наличие вредоносного контента, часто используется для защиты от prompt injection

  • wikiPrompt Security

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] ## Навигация - [[00. Индекс…

  • wikiblacklist

    # blacklist ## Определение Статический список запрещённых действий или фраз (например, «игнорируй инструкции»), используемый для защиты от prompt injection и ограничения агентов…

  • wikiИнжект контекста

    …Что такое adversarial prompt detection для реального времени (runtime)|625. Что такое adversarial prompt detection для реального времени (runtime)]] ## Навигация…

  • wikioutput filtering

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[121. Назовите OWASP…

  • answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?

    Prompt injection через изображения (визуальный prompt injection) **[[Вики/prompt\|Prompt]] [[Вики/Prompt injection\|injection]]** — это внедрение в контекст модели инструкций…

  • wikiprompt hardening

    …Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)|624. Как вы защищаете RAG от data poisoning…

  • answerЧто такое Indirect Prompt Injection через RAG и как защититься?

    …Что такое Indirect Prompt Injection через RAG и как защититься? ## Краткий тезис [[Вики/Indirect Prompt Injection\|Indirect Prompt Injection]] — это…

  • answerКак вы защищаете RAG от document injection (вредоносные документы в базе знаний)?

    …Отличие от [[Вики/Prompt injection\|prompt injection]] При **[[Вики/Prompt injection\|prompt injection]]** атака идёт через пользовательский запрос, а при…

  • answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?

    …В версии 2026 года добавлены: - [[Вики/Prompt injection\|LLM01]]: [[Вики/Prompt injection\|Prompt Injection]] ([[Вики/Prompt injection\|внедрение инструкций]]). - [[Вики…

  • wikiRegex-фильтры

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] ## Навигация - [[00. Индекс…

  • wikiDelimiter-based approach

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] ## Навигация - [[00. Индекс…

  • wikiстеганография

    …Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Guardrails на NeMo

    …Добавить [[Вики/flow\|flow]] "[[Вики/Check\|check]] [[Вики/Prompt injection\|injection]]: ``` define flow check injection user said a prompt injection

  • answerНазовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?

    …Из десяти рисков три являются наиболее опасными: **[[Вики/Prompt injection\|LLM01]] ([[Вики/промпт агента\|Prompt]] [[Вики/Prompt injection\|Injection]])** — атака…

  • wikiadversarial patch

    …Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…

  • answerКак вы защищаете LLM от prompt injection через RAG (когда документ содержит инструкцию)?

    Prompt injection в контексте RAG **[[Вики/Prompt injection\|Prompt injection]]** — это атака, при которой злоумышленник внедряет в [[Вики/prompt\|промпт…

  • wikihash

    …изменений промптов (prompt lineage)]] - [[624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)|624. Как вы…

  • answerКак вы дебажите проблему "LLM не следовала системному промпту"?

    …системный промпт, prompt injection, few-shot [[Вики/промпт агента\|Системный промпт]] ([[Вики/промпт агента\|system prompt]]) — часть контекста, задающая поведение…

  • answerКак вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?

    …В отличие от **prompt injection** (где атака идёт через пользовательский запрос), здесь источник угрозы — сам документ. **[[Вики/subtle injections\|Неявные…

  • wikiGarak

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[125. Объясните разницу…

  • answerЧто такое adversarial prompt detection для реального времени (runtime)?

    …28 000 примеров jailbreak-атак. - Deepset/prompt-injections: [[Вики/dataset\|датасет]] [[Вики/Prompt injection\|prompt injection]]. - [[Вики/Claude API\|Anthropic…

  • answerЧто такое jailbreak taxonomy (полная классификация)?

    …В отличие от **[[Вики/prompt\|prompt]] [[Вики/Prompt injection\|injection]]**, где цель — переопределить инструкции для выполнения вредоносного действия, [[Вики/role…

  • wikiadversarial training

    …Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[126. Что такое…

  • answerКак тестировать robustness LLM к adversarial inputs?

    …Проверить устойчивость к prompt injection и tool injection. Инструменты Python, TextAttack, FastAPI (mock-инструмент), LangChain или собственная простая агентная обёртка…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента

    …Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 14 | Что такое prompt injection и как тестировать защиту от него? | | 22 | Как…

  • answerКак делать adversarial evals для RAG (проверка на устойчивость)?

    …искажение запроса (typo, синонимы), вставка отвлекающей информации, **prompt injection** и атаки на retrieval (например, манипуляция эмбеддингами). Ключевые метрики: ASR (success…

  • answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?

    …Основные угрозы, которые закрывают [[Вики/NeMo Guardrails\|guardrails]]: - **[[Вики/Prompt injection\|Prompt injection]]** — [[Вики/Prompt injection\|внедрение вредоносных инструкций]] в…

  • answerКак вы защищаете агента от tool injection (вредоносный API ответ)?

    …В отличие от **[[Вики/Prompt injection\|prompt injection]]** (атака на сам [[Вики/prompt\|промпт]]), здесь вредоносная нагрузка приходит через ответ…

  • wikiescape

    # escape ## Определение Техника защиты от prompt injection, удаляющая из документов паттерны, похожие на инструкции. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiLLM-firewall

    # LLM-firewall ## Определение Компонент безопасности, фильтрующий вредоносные запросы и ответы LLM для защиты от prompt injection, jailbreak и утечки данных…

  • answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?

    …понять, какие типы [[Вики/Jailbreak\|jailbreak]] (ролевые, [[Вики/Prompt injection\|инъекции]], многошаговые) наиболее опасны для данной модели. - [[Вики/регрессионное тестирование…

  • wikicontext separation

    # context separation ## Определение Разделение контекста и инструкции с помощью специальных токенов для защиты от prompt injection. ## Где встречается - [[800+ вопросов…

  • wikiPyRIT

    …Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…

  • wikitool misuse

    # tool misuse ## Определение Использование инструментов агентом не по назначению, часто в результате атак, таких как prompt injection. ## Где встречается - [[160…

  • answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?

    …Они используют комбинацию техник: **[[Вики/role-play jailbreak\|role-play]]**, перевод, **[[Вики/SQL\|code]] [[Вики/Prompt injection\|injection]]** и другие…

  • wikiAzure AI Red Team Tools

    # Azure AI Red Team Tools ## Определение Набор инструментов от Azure для red-teaming LLM, позволяющий генерировать prompt injection и multi…

  • wikired teaming

    …Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…

  • wikiInput Filter

    # Input Filter ## Определение Компонент безопасности, который блокирует prompt injection и санитизирует входные данные, прежде чем они попадут в LLM или…