HotFlip
HotFlip
Определение
White-box атака на NLP-модели, использующая градиенты для замены токена с целью максимизации функции потерь и создания adversarial примеров.
Где встречается
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 599. Что такое adversarial retrieval (атака на retrieval компонент RAG)
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)
- 890. Как тестировать robustness LLM к adversarial inputs