中文翻译暂不可用,显示俄语原文。
gradient-based
gradient-based
Определение
Методы атак, использующие градиенты модели для генерации состязательных входов, например Greedy Coordinate Gradient (GCG). Требуют white-box доступа.
Где встречается
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 800+ вопросов