HotFlip

Определение

White-box атака на NLP-модели, использующая градиенты для замены токена с целью максимизации функции потерь и создания adversarial примеров.