English translation is not available yet. Showing Russian content.
Universal Adversarial Triggers
Universal Adversarial Triggers
Определение
Короткие последовательности токенов, которые при добавлении к любому входу заставляют модель генерировать заданный вывод. Используются для тестирования устойчивости LLM к состязательным атакам.