Adversarial attacks

Определение

Попытки обойти защиту модели через вредоносные запросы, против которых применяются методы вроде Constitutional AI.