Word-level attack
Word-level attack
Определение
Тип adversarial-атаки на NLP-модели, при которой изменяются отдельные слова (замена синонимами, перестановка) для искажения предсказания. Пример — TextFooler, заменяющий слова на семантически близкие, чтобы обмануть классификатор.