中文翻译暂不可用,显示俄语原文。

Universal Adversarial Triggers

Universal Adversarial Triggers

Определение

Короткие последовательности токенов, которые при добавлении к любому входу заставляют модель генерировать заданный вывод. Используются для тестирования устойчивости LLM к состязательным атакам.

Где встречается

Навигация