要約
単語レベルのテキストによる敵対的攻撃は、誤解を招く自然言語処理 (NLP) モデルにおいて顕著な効果を示しています。
それらの成功にもかかわらず、その有効性の根本的な理由と敵対的例 (AE) の基本的な特徴は依然として不明瞭です。
この研究は、単語レベルの攻撃の $n$-gram 頻度パターンを調べることによって解釈することを目的としています。
私たちの包括的な実験により、ケースの約 90% で、単語レベルの攻撃により $n$-gram の頻度が減少する例が生成されることが明らかになりました。この傾向を $n$-gram の頻度降下 ($n) と呼んでいます。
$-FD)。
この発見は、モデルの堅牢性を高めるための直接的な戦略、つまり $n$-FD を使用した例を使用してモデルをトレーニングすることを示唆しています。
この戦略の実現可能性を検討するために、従来の損失勾配の代わりに $n$-gram 周波数情報を使用して、敵対的トレーニングで摂動サンプルを生成しました。
実験結果は、周波数ベースのアプローチがモデルのロバスト性の向上において勾配ベースのアプローチと同等に機能することを示しています。
私たちの研究は、単語レベルのテキストによる敵対的攻撃を理解するための斬新でより直感的な視点を提供し、モデルの堅牢性を向上させるための新しい方向性を提案します。
要約(オリジナル)
Word-level textual adversarial attacks have demonstrated notable efficacy in misleading Natural Language Processing (NLP) models. Despite their success, the underlying reasons for their effectiveness and the fundamental characteristics of adversarial examples (AEs) remain obscure. This work aims to interpret word-level attacks by examining their $n$-gram frequency patterns. Our comprehensive experiments reveal that in approximately 90\% of cases, word-level attacks lead to the generation of examples where the frequency of $n$-grams decreases, a tendency we term as the $n$-gram Frequency Descend ($n$-FD). This finding suggests a straightforward strategy to enhance model robustness: training models using examples with $n$-FD. To examine the feasibility of this strategy, we employed the $n$-gram frequency information, as an alternative to conventional loss gradients, to generate perturbed examples in adversarial training. The experiment results indicate that the frequency-based approach performs comparably with the gradient-based approach in improving model robustness. Our research offers a novel and more intuitive perspective for understanding word-level textual adversarial attacks and proposes a new direction to improve model robustness.
arxiv情報
著者 | Ning Lu,Shengcai Liu,Zhirui Zhang,Qi Wang,Haifeng Liu,Ke Tang |
発行日 | 2024-04-15 08:11:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google