Word-level attack

Определение

Тип adversarial-атаки на NLP-модели, при которой изменяются отдельные слова (замена синонимами, перестановка) для искажения предсказания. Пример — TextFooler, заменяющий слова на семантически близкие, чтобы обмануть классификатор.

Где встречается

890. Как тестировать robustness LLM к adversarial inputs

Word-level attack

Word-level attack

Определение

Где встречается

Навигация