defensive distillation
defensive distillation
Определение
Метод защиты от градиентных атак (white-box jailbreak), при котором модель обучается на «мягких» лейблах (soft labels) другой модели. Сглаживает выходные вероятности и уменьшает чувствительность к возмущениям.
Где встречается
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 800+ вопросов