Generative attacks

Определение

Автоматизированные методы, где LLM-атакующий генерирует промпты для LLM-цели, чтобы вызвать нежелательное поведение. Используются для оценки устойчивости модели к adversarial воздействиям.

Где встречается

127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.

Generative attacks

Generative attacks

Определение

Где встречается

Навигация