中文翻译暂不可用,显示俄语原文。
adversarial training
adversarial training
Определение
Метод повышения устойчивости модели к атакам путём включения состязательных примеров (adversarial examples) в обучающую выборку. Используется для защиты от jailbreak и других атак.
Где встречается
- 67. Что такое Prompt Injection и как вы защищаетесь
- 126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 344. Что такое reward hacking в RLHF и как его детектировать
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 359. Как вы защищаете multi-agent систему от вредоносного агента
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 489. Что такое reward hacking в RLHF и как его детектировать
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 599. Что такое adversarial retrieval (атака на retrieval компонент RAG)
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
- 873. Как детектировать reward hacking в RLHF
- 890. Как тестировать robustness LLM к adversarial inputs
- 800+ вопросов
- 279. Настроить adversarial evaluation для RAG