English translation is not available yet. Showing Russian content.
Prompt injection
Prompt injection
Определение
Атака, при которой вредоносный пользователь внедряет инструкции, заставляющие модель игнорировать системный промпт или выполнять нежелательные действия; один из главных рисков OWASP Top 10 для LLM.
Где встречается
- 38. Как вы fine-tune модель для функции вызов внешнего API
- 67. Что такое Prompt Injection и как вы защищаетесь
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 93. Как вы дебажите проблему LLM не следовала системному промпту
- 94. Как вы проектируете промпты, которые работают с разными моделями
- 121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска.
- 123. Как вы защищаете RAG-систему от утечки данных между клиентами (multi-tenant isolation)
- 125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется
- 126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 128. Что такое Model Poisoning в контексте RAG и как защититься
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 351. Как работает model stealing attack и как защититься
- 353. Как работает embedding poisoning для RAG и как защититься
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 359. Как вы защищаете multi-agent систему от вредоносного агента
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 548. Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента
- 596. Как работает model stealing attack (экстракция модели через API)
- 598. Как работает embedding poisoning для RAG и как защититься
- 599. Что такое adversarial retrieval (атака на retrieval компонент RAG)
- 604. Как вы защищаете multi-agent систему от вредоносного агента
- 607. Что такое sandbox escape для AI-агента и как защититься
- 612. Что такое data exfiltration через LLM (утечка данных через ответы)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
- 624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)
- 625. Что такое adversarial prompt detection для реального времени (runtime)
- 732. Что такое EU AI Act и как оно влияет на деплой LLM в production
- 736. Что такое red teaming certification (стандарты 2026 для оценки robustness)
- 758. Как вы проектируете Harness для mission-critical приложения Приведите пример с агентом для банковских переводов.
- 805. Что такое «prompt linting» (статический анализ промптов)
- 808. Что такое «prompt templating» и как его версионировать
- 867. Как делать adversarial evals для RAG (проверка на устойчивость)
- 868. Что такое red teaming для LLM и как его проводить
- 881. Что такое jailbreak taxonomy (полная классификация)
- 885. Как происходит PII leakage через LLM и как защититься
- 887. Как проектировать agent permissions (least privilege модель)