要約
敵対的攻撃は、自然言語処理 (NLP) の Transformer モデルなどのディープ ニューラル ネットワーク (DNN) に重大な課題をもたらします。
この論文では、GenFighter と呼ばれる新しい防御戦略を紹介します。これは、トレーニング分類分布に基づく学習と推論によって敵対的な堅牢性を強化します。
GenFighter は、分布から逸脱する潜在的に悪意のあるインスタンスを識別し、それらをトレーニング データに合わせて意味的に同等のインスタンスに変換し、統一された堅牢な応答のためにアンサンブル技術を採用します。
広範な実験を実施することにより、GenFighter が攻撃時の精度と攻撃成功率の指標において最先端の防御を上回っていることを示しています。
さらに、攻撃ごとに多数のクエリが必要となるため、実際のシナリオでは攻撃がより困難になります。
アブレーション研究は、私たちのアプローチが転移学習、生成/進化的手順、およびアンサンブル手法を統合し、NLP 敵対的攻撃に対する効果的な防御を提供することを示しています。
要約(オリジナル)
Adversarial attacks pose significant challenges to deep neural networks (DNNs) such as Transformer models in natural language processing (NLP). This paper introduces a novel defense strategy, called GenFighter, which enhances adversarial robustness by learning and reasoning on the training classification distribution. GenFighter identifies potentially malicious instances deviating from the distribution, transforms them into semantically equivalent instances aligned with the training data, and employs ensemble techniques for a unified and robust response. By conducting extensive experiments, we show that GenFighter outperforms state-of-the-art defenses in accuracy under attack and attack success rate metrics. Additionally, it requires a high number of queries per attack, making the attack more challenging in real scenarios. The ablation study shows that our approach integrates transfer learning, a generative/evolutive procedure, and an ensemble method, providing an effective defense against NLP adversarial attacks.
arxiv情報
著者 | Md Athikul Islam,Edoardo Serra,Sushil Jajodia |
発行日 | 2024-04-17 16:32:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google