Adversarial attacks
Adversarial attacks
Определение
Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI.
Где встречается
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 351. Как работает model stealing attack и как защититься