AdvBench
AdvBench
Определение
Стандартный бенчмарк для оценки устойчивости LLM к adversarial атакам, часто используемый в red teaming.
Где встречается
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 497. Как вы проектируете red teaming evaluation для jailbreak устойчивости