中文翻译暂不可用,显示俄语原文。
PAIR
PAIR
Определение
Метод автоматической генерации jailbreak-атак на LLM, при котором атакующая модель итеративно улучшает промпт на основе ответов жертвы.
Где встречается
- 127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 868. Что такое red teaming для LLM и как его проводить
- 800+ вопросов