English translation is not available yet. Showing Russian content.
Jailbreak defense
Jailbreak defense
Определение
Методы защиты LLM от jailbreak-атак, например, использование representation engineering (RepE) для подавления вредных активаций и блокировки обхода ограничений.