English translation is not available yet. Showing Russian content.
moral reasoning attack
moral reasoning attack
Определение
Moral reasoning attack — тип jailbreak-атаки на LLM, использующий этический релятивизм и двойные стандарты для обхода ограничений модели.