中文翻译暂不可用,显示俄语原文。
Adversarial attacks
Adversarial attacks
Определение
Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI.
Где встречается
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 351. Как работает model stealing attack и как защититься