hypothetical attack

hypothetical attack

Определение

Вид jailbreak-атаки, использующий вопросы в формате «What if?» о вымышленных ситуациях, чтобы спровоцировать модель на опасные или запрещённые ответы.

Где встречается

Навигация