adversarial probing
adversarial probing
Определение
Создание специальных промптов для провоцирования нежелательного поведения модели с целью оценки её безопасности и обнаружения уязвимостей.
Создание специальных промптов для провоцирования нежелательного поведения модели с целью оценки её безопасности и обнаружения уязвимостей.