English translation is not available yet. Showing Russian content.
AdvBench
AdvBench
Определение
Стандартный бенчмарк для оценки устойчивости LLM к adversarial атакам, часто используемый в red teaming.
Где встречается
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 497. Как вы проектируете red teaming evaluation для jailbreak устойчивости