defensive distillation

Определение

Метод защиты от градиентных атак (white-box jailbreak), при котором модель обучается на «мягких» лейблах (soft labels) другой модели. Сглаживает выходные вероятности и уменьшает чувствительность к возмущениям.

Где встречается

298. Как вы тестируете robustness LLM к adversarial input (не только injection)
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
800+ вопросов

defensive distillation

defensive distillation

Определение

Где встречается

Навигация