adversarial training

Определение

Метод повышения устойчивости модели к атакам путём включения состязательных примеров (adversarial examples) в обучающую выборку. Используется для защиты от jailbreak и других атак.

Где встречается

67. Что такое Prompt Injection и как вы защищаетесь
126. Что такое MITRE ATLAS и как он связан с MITRE ATT&CK
127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
298. Как вы тестируете robustness LLM к adversarial input (не только injection)
329. Как обучается reward model для RLHF и как избегать reward hacking
344. Что такое reward hacking в RLHF и как его детектировать
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
359. Как вы защищаете multi-agent систему от вредоносного агента
360. Что такое adversarial fine-tuning для защиты от jailbreak
489. Что такое reward hacking в RLHF и как его детектировать
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
599. Что такое adversarial retrieval (атака на retrieval компонент RAG)
600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
611. Как работает adversarial example для embedding моделей (атака на retrieval)
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
873. Как детектировать reward hacking в RLHF
890. Как тестировать robustness LLM к adversarial inputs
800+ вопросов
279. Настроить adversarial evaluation для RAG

adversarial training

adversarial training

Определение

Где встречается

Навигация

adversarial training

adversarial training

Определение

Где встречается

Навигация