Prompt injection

Определение

Атака, при которой вредоносный пользователь внедряет инструкции, заставляющие модель игнорировать системный промпт или выполнять нежелательные действия; один из главных рисков OWASP Top 10 для LLM.

Где встречается

38. Как вы fine-tune модель для функции вызов внешнего API
67. Что такое Prompt Injection и как вы защищаетесь
83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
90. Как вы проектируете API для внешних систем, использующих вашу LLM
93. Как вы дебажите проблему LLM не следовала системному промпту
94. Как вы проектируете промпты, которые работают с разными моделями
121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска.
123. Как вы защищаете RAG-систему от утечки данных между клиентами (multi-tenant isolation)
125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется
126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK
127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
128. Что такое Model Poisoning в контексте RAG и как защититься
298. Как вы тестируете robustness LLM к adversarial input (не только injection)
351. Как работает model stealing attack и как защититься
353. Как работает embedding poisoning для RAG и как защититься
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
359. Как вы защищаете multi-agent систему от вредоносного агента
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
548. Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента
596. Как работает model stealing attack (экстракция модели через API)
598. Как работает embedding poisoning для RAG и как защититься
599. Что такое adversarial retrieval (атака на retrieval компонент RAG)
604. Как вы защищаете multi-agent систему от вредоносного агента
607. Что такое sandbox escape для AI-агента и как защититься
612. Что такое data exfiltration через LLM (утечка данных через ответы)
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)
625. Что такое adversarial prompt detection для реального времени (runtime)
732. Что такое EU AI Act и как оно влияет на деплой LLM в production
736. Что такое red teaming certification (стандарты 2026 для оценки robustness)
758. Как вы проектируете Harness для mission-critical приложения Приведите пример с агентом для банковских переводов.
805. Что такое «prompt linting» (статический анализ промптов)
808. Что такое «prompt templating» и как его версионировать
867. Как делать adversarial evals для RAG (проверка на устойчивость)
868. Что такое red teaming для LLM и как его проводить
881. Что такое jailbreak taxonomy (полная классификация)
885. Как происходит PII leakage через LLM и как защититься
887. Как проектировать agent permissions (least privilege модель)

Prompt injection

Prompt injection

Определение

Где встречается

Навигация

Prompt injection

Prompt injection

Определение

Где встречается

Навигация