Поиск

wikiIndirect Prompt Injection
# Indirect Prompt Injection ## Определение Злоумышленник загружает документ с инструкцией, внедряя вредоносный промпт через RAG ## Где встречается - [[67. Что такое Prompt…
wikivisual prompt injection
# visual prompt injection ## Определение Атака на VL-модели, при которой вредоносные инструкции встраиваются в визуальный контент (например, изображения), заставляя модель…
wikiVisual Prompt Injection Dataset
# Visual Prompt Injection Dataset ## Определение Датасет, содержащий примеры визуальных промпт-инъекций для тестирования защитных механизмов VL-моделей. ## Где встречается - [[621…
wikiPrompt injection
# Prompt injection ## Определение Атака, при которой вредоносный пользователь внедряет инструкции, заставляющие модель игнорировать системный промпт или выполнять нежелательные действия; один…
wikiRandomisation промптов
# Randomisation промптов ## Определение Добавление случайных токенов или префиксов в системный промпт для усложнения prompt injection атак. ## Где встречается - [[67. Что…
wikiinjection classifier
# injection classifier ## Определение Модель или компонент, который классифицирует пользовательский ввод на наличие попыток prompt injection, фильтруя опасные запросы. ## Где встречается…
answerЧто такое Prompt Injection и как вы защищаетесь?
…Различают **[[Вики/Prompt injection\|direct prompt injection]]** ([[Вики/Prompt injection\|инъекция]] напрямую в диалог с моделью) и **[[Вики/Indirect Prompt…
wikiInput sanitization
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[298. Как вы…
wikiмультимодальная изоляция
…Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…
wikiPrinciple of Least Privilege
…Например, только чтение, без права удаления, для защиты от Prompt Injection. ## Где встречается - [[67. Что такое Prompt Injection и как…
wikiLLM-as-firewall
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[800+ вопросов|800…
wikisafety filter
# safety filter ## Определение Компонент, выполняющий вторую проверку ответа модели на наличие вредоносного контента, часто используется для защиты от prompt injection…
wikiPrompt Security
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] ## Навигация - [[00. Индекс…
wikiblacklist
# blacklist ## Определение Статический список запрещённых действий или фраз (например, «игнорируй инструкции»), используемый для защиты от prompt injection и ограничения агентов…
wikiИнжект контекста
…Что такое adversarial prompt detection для реального времени (runtime)|625. Что такое adversarial prompt detection для реального времени (runtime)]] ## Навигация…
wikioutput filtering
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[121. Назовите OWASP…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Prompt injection через изображения (визуальный prompt injection) **[[Вики/prompt\|Prompt]] [[Вики/Prompt injection\|injection]]** — это внедрение в контекст модели инструкций…
wikiprompt hardening
…Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)|624. Как вы защищаете RAG от data poisoning…
answerЧто такое Indirect Prompt Injection через RAG и как защититься?
…Что такое Indirect Prompt Injection через RAG и как защититься? ## Краткий тезис [[Вики/Indirect Prompt Injection\|Indirect Prompt Injection]] — это…
answerКак вы защищаете RAG от document injection (вредоносные документы в базе знаний)?
…Отличие от [[Вики/Prompt injection\|prompt injection]] При **[[Вики/Prompt injection\|prompt injection]]** атака идёт через пользовательский запрос, а при…
answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?
…В версии 2026 года добавлены: - [[Вики/Prompt injection\|LLM01]]: [[Вики/Prompt injection\|Prompt Injection]] ([[Вики/Prompt injection\|внедрение инструкций]]). - [[Вики…
wikiRegex-фильтры
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] ## Навигация - [[00. Индекс…
wikiDelimiter-based approach
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] ## Навигация - [[00. Индекс…
wikiстеганография
…Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Guardrails на NeMo
…Добавить [[Вики/flow\|flow]] "[[Вики/Check\|check]] [[Вики/Prompt injection\|injection]]: ``` define flow check injection user said a prompt injection…
answerНазовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска?
…Из десяти рисков три являются наиболее опасными: **[[Вики/Prompt injection\|LLM01]] ([[Вики/промпт агента\|Prompt]] [[Вики/Prompt injection\|Injection]])** — атака…
wikiadversarial patch
…Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…
answerКак вы защищаете LLM от prompt injection через RAG (когда документ содержит инструкцию)?
…Prompt injection в контексте RAG **[[Вики/Prompt injection\|Prompt injection]]** — это атака, при которой злоумышленник внедряет в [[Вики/prompt\|промпт…
wikihash
…изменений промптов (prompt lineage)]] - [[624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)|624. Как вы…
answerКак вы дебажите проблему "LLM не следовала системному промпту"?
…системный промпт, prompt injection, few-shot [[Вики/промпт агента\|Системный промпт]] ([[Вики/промпт агента\|system prompt]]) — часть контекста, задающая поведение…
answerКак вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?
…В отличие от **prompt injection** (где атака идёт через пользовательский запрос), здесь источник угрозы — сам документ. **[[Вики/subtle injections\|Неявные…
wikiGarak
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[125. Объясните разницу…
answerЧто такое adversarial prompt detection для реального времени (runtime)?
…28 000 примеров jailbreak-атак. - Deepset/prompt-injections: [[Вики/dataset\|датасет]] [[Вики/Prompt injection\|prompt injection]]. - [[Вики/Claude API\|Anthropic…
answerЧто такое jailbreak taxonomy (полная классификация)?
…В отличие от **[[Вики/prompt\|prompt]] [[Вики/Prompt injection\|injection]]**, где цель — переопределить инструкции для выполнения вредоносного действия, [[Вики/role…
wikiadversarial training
…Что такое Prompt Injection и как вы защищаетесь|67. Что такое Prompt Injection и как вы защищаетесь]] - [[126. Что такое…
answerКак тестировать robustness LLM к adversarial inputs?
…Проверить устойчивость к prompt injection и tool injection. Инструменты Python, TextAttack, FastAPI (mock-инструмент), LangChain или собственная простая агентная обёртка…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 14 | Что такое prompt injection и как тестировать защиту от него? | | 22 | Как…
answerКак делать adversarial evals для RAG (проверка на устойчивость)?
…искажение запроса (typo, синонимы), вставка отвлекающей информации, **prompt injection** и атаки на retrieval (например, манипуляция эмбеддингами). Ключевые метрики: ASR (success…
answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
…Основные угрозы, которые закрывают [[Вики/NeMo Guardrails\|guardrails]]: - **[[Вики/Prompt injection\|Prompt injection]]** — [[Вики/Prompt injection\|внедрение вредоносных инструкций]] в…
answerКак вы защищаете агента от tool injection (вредоносный API ответ)?
…В отличие от **[[Вики/Prompt injection\|prompt injection]]** (атака на сам [[Вики/prompt\|промпт]]), здесь вредоносная нагрузка приходит через ответ…
wikiescape
# escape ## Определение Техника защиты от prompt injection, удаляющая из документов паттерны, похожие на инструкции. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikiLLM-firewall
# LLM-firewall ## Определение Компонент безопасности, фильтрующий вредоносные запросы и ответы LLM для защиты от prompt injection, jailbreak и утечки данных…
answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…понять, какие типы [[Вики/Jailbreak\|jailbreak]] (ролевые, [[Вики/Prompt injection\|инъекции]], многошаговые) наиболее опасны для данной модели. - [[Вики/регрессионное тестирование…
wikicontext separation
# context separation ## Определение Разделение контекста и инструкции с помощью специальных токенов для защиты от prompt injection. ## Где встречается - [[800+ вопросов…
wikiPyRIT
…Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…
wikitool misuse
# tool misuse ## Определение Использование инструментов агентом не по назначению, часто в результате атак, таких как prompt injection. ## Где встречается - [[160…
answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…Они используют комбинацию техник: **[[Вики/role-play jailbreak\|role-play]]**, перевод, **[[Вики/SQL\|code]] [[Вики/Prompt injection\|injection]]** и другие…
wikiAzure AI Red Team Tools
# Azure AI Red Team Tools ## Определение Набор инструментов от Azure для red-teaming LLM, позволяющий генерировать prompt injection и multi…
wikired teaming
…Как вы защищаете LLM от prompt injection через изображения (VL-модели)|621. Как вы защищаете LLM от prompt injection через…
wikiInput Filter
# Input Filter ## Определение Компонент безопасности, который блокирует prompt injection и санитизирует входные данные, прежде чем они попадут в LLM или…