Word-level attack

Word-level attack

Определение

Тип adversarial-атаки на NLP-модели, при которой изменяются отдельные слова (замена синонимами, перестановка) для искажения предсказания. Пример — TextFooler, заменяющий слова на семантически близкие, чтобы обмануть классификатор.

Где встречается

Навигация