Generative attacks
Generative attacks
Определение
Автоматизированные методы, где LLM-атакующий генерирует промпты для LLM-цели, чтобы вызвать нежелательное поведение. Используются для оценки устойчивости модели к adversarial воздействиям.
Автоматизированные методы, где LLM-атакующий генерирует промпты для LLM-цели, чтобы вызвать нежелательное поведение. Используются для оценки устойчивости модели к adversarial воздействиям.