English translation is not available yet. Showing Russian content.
attack success rate
attack success rate
Определение
Метрика, измеряющая долю успешных атак (например, jailbreak или membership inference) на LLM. Ключевая для оценки устойчивости модели при red teaming.
Где встречается
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 357. Как работает membership inference атака на LLM
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 364. Как вы строите real-time voice agent с latency 500ms
- 559. Что такое Audio RAG (RAG для аудиофайлов)
- 602. Как работает membership inference атака на LLM
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 867. Как делать adversarial evals для RAG (проверка на устойчивость)
- 868. Что такое red teaming для LLM и как его проводить
- 881. Что такое jailbreak taxonomy (полная классификация)
- 800+ вопросов