attack success rate

attack success rate

Определение

Метрика, измеряющая долю успешных атак (например, jailbreak или membership inference) на LLM. Ключевая для оценки устойчивости модели при red teaming.

Где встречается

Навигация