adversarial probing

adversarial probing

Определение

Создание специальных промптов для провоцирования нежелательного поведения модели с целью оценки её безопасности и обнаружения уязвимостей.

Где встречается

Навигация