Gradient-Based Word Substitution for Obstinate Adversarial Examples Generation in Language Models

要約

この論文では、NLP における単語置換によって頑固な (過安定性の) 敵対的な例を生成する問題を研究します。この問題では、入力テキストは意味のあるように変更されますが、モデルの予測は変更されるべきにもかかわらず変更されません。
これまでの単語置換アプローチは、執拗な敵対例を生成するために手動で設計された反意語ベースの戦略に主に焦点を当てていましたが、これらの戦略は執拗な敵対例のサブセットしか見つけることができず、人間の努力を必要とするため、その適用が妨げられていました。
この問題に対処するために、この論文では、GradObstinate という名前の新しい単語置換手法を紹介します。これは、検索スペースの制約や手動の設計原則を必要とせずに、頑固な敵対的な例を自動的に生成する勾配ベースのアプローチです。
GradObstinate の有効性を実証的に評価するために、4 つの NLP ベンチマーク (SST-2、MRPC、SNLI、SQuAD) と言語基盤に基づいて微調整された 5 つの代表的なモデル (Electra、ALBERT、Roberta、DistillBERT、および CLIP) で包括的な実験を実施します。
ベンチマーク (MSCOCO)。
広範な実験により、私たちが提案した GradObstinate はより強力な頑固な敵対的な例を生成し、反意語ベースの方法と比較してより高い攻撃成功率を示すことが示されました。
さらに、GradObstinate によって発見された頑固な単語置換の伝達可能性を示すために、4 つの代表的な NLP ベンチマークの単語をその頑固な置換で置き換えます。
特に、頑固な置換は、GPT-3 や ChatGPT を含むブラックボックス設定の他のモデルに転送すると、高い成功率を示します。
GradObstinate によって見つかった頑固な敵対的な例は、https://huggingface.co/spaces/anonauthors/SecretLanguage で入手できます。

要約(オリジナル)

In this paper, we study the problem of generating obstinate (over-stability) adversarial examples by word substitution in NLP, where input text is meaningfully changed but the model’s prediction does not, even though it should. Previous word substitution approaches have predominantly focused on manually designed antonym-based strategies for generating obstinate adversarial examples, which hinders its application as these strategies can only find a subset of obstinate adversarial examples and require human efforts. To address this issue, in this paper, we introduce a novel word substitution method named GradObstinate, a gradient-based approach that automatically generates obstinate adversarial examples without any constraints on the search space or the need for manual design principles. To empirically evaluate the efficacy of GradObstinate, we conduct comprehensive experiments on five representative models (Electra, ALBERT, Roberta, DistillBERT, and CLIP) finetuned on four NLP benchmarks (SST-2, MRPC, SNLI, and SQuAD) and a language-grounding benchmark (MSCOCO). Extensive experiments show that our proposed GradObstinate generates more powerful obstinate adversarial examples, exhibiting a higher attack success rate compared to antonym-based methods. Furthermore, to show the transferability of obstinate word substitutions found by GradObstinate, we replace the words in four representative NLP benchmarks with their obstinate substitutions. Notably, obstinate substitutions exhibit a high success rate when transferred to other models in black-box settings, including even GPT-3 and ChatGPT. Examples of obstinate adversarial examples found by GradObstinate are available at https://huggingface.co/spaces/anonauthors/SecretLanguage.

arxiv情報

著者 Yimu Wang,Peng Shi,Hongyang Zhang
発行日 2023-08-18 03:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY パーマリンク