attack success rate
attack success rate
Определение
Метрика, измеряющая долю успешных атак (например, jailbreak или membership inference) на LLM. Ключевая для оценки устойчивости модели при red teaming.
Где встречается
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 357. Как работает membership inference атака на LLM
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 364. Как вы строите real-time voice agent с latency 500ms
- 559. Что такое Audio RAG (RAG для аудиофайлов)
- 602. Как работает membership inference атака на LLM
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 867. Как делать adversarial evals для RAG (проверка на устойчивость)
- 868. Что такое red teaming для LLM и как его проводить
- 881. Что такое jailbreak taxonomy (полная классификация)
- 800+ вопросов