hypothetical attack
hypothetical attack
Определение
Вид jailbreak-атаки, использующий вопросы в формате «What if?» о вымышленных ситуациях, чтобы спровоцировать модель на опасные или запрещённые ответы.
Вид jailbreak-атаки, использующий вопросы в формате «What if?» о вымышленных ситуациях, чтобы спровоцировать модель на опасные или запрещённые ответы.