要約
敵対的テキスト攻撃の分野はここ数年で大幅に成長しており、一般的に考えられている目的は、ターゲット モデルをうまく欺くことができる敵対的サンプル (AE) を作成することです。
しかし、実際の攻撃者にとっても不可欠な攻撃の感知性は、先行研究では省略されていることがよくあります。
その結果、細工された AE は人間が書いた元のテキストと構造的および意味論的に明らかな違いがある傾向があり、容易に認識できます。
この研究では、このような問題に対処するために多目的化を活用することを提唱しています。
具体的には、AE を作成する問題を多目的最適化問題として再定式化し、攻撃の感知不能性を補助的な目的として考慮します。
次に、この問題を解決するために、HydraText と呼ばれる、シンプルだが効果的な進化的アルゴリズムを提案します。
私たちの知る限り、HydraText は現在、スコアベースの攻撃設定と意思決定ベースの攻撃設定の両方に効果的に適用できる唯一のアプローチです。
44237 個のインスタンスを含む徹底的な実験により、HydraText は競合する攻撃成功率と、最近提案された攻撃アプローチよりも優れた攻撃の感知性を一貫して達成していることが実証されました。
人間による評価研究では、HydraText によって作成された AE は人間が書いたテキストと区別がつきにくいことも示されています。
最後に、これらの AE は良好な移行性を示し、敵対的トレーニングによってターゲット モデルに顕著な堅牢性の向上をもたらすことができます。
要約(オリジナル)
The field of adversarial textual attack has significantly grown over the last few years, where the commonly considered objective is to craft adversarial examples (AEs) that can successfully fool the target model. However, the imperceptibility of attacks, which is also essential for practical attackers, is often left out by previous studies. In consequence, the crafted AEs tend to have obvious structural and semantic differences from the original human-written text, making them easily perceptible. In this work, we advocate leveraging multi-objectivization to address such issue. Specifically, we reformulate the problem of crafting AEs as a multi-objective optimization problem, where the attack imperceptibility is considered as an auxiliary objective. Then, we propose a simple yet effective evolutionary algorithm, dubbed HydraText, to solve this problem. To the best of our knowledge, HydraText is currently the only approach that can be effectively applied to both score-based and decision-based attack settings. Exhaustive experiments involving 44237 instances demonstrate that HydraText consistently achieves competitive attack success rates and better attack imperceptibility than the recently proposed attack approaches. A human evaluation study also shows that the AEs crafted by HydraText are more indistinguishable from human-written text. Finally, these AEs exhibit good transferability and can bring notable robustness improvement to the target model by adversarial training.
arxiv情報
著者 | Shengcai Liu,Ning Lu,Wenjing Hong,Chao Qian,Ke Tang |
発行日 | 2023-12-15 03:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google