要約
自然言語処理モデルは、敵対的な例に対して脆弱です。
以前のテキストによる敵対的攻撃では、勾配または信頼度スコアを採用して単語の重要度ランキングを計算し、敵対的な例を生成していました。
ただし、この情報は現実世界では入手できません。
したがって、攻撃者がモデルをクエリして離散予測ラベルを取得することしかできない、ハードラベル攻撃と呼ばれる、より現実的で挑戦的な設定に焦点を当てます。
既存のハードラベル攻撃アルゴリズムは、ランダムな置換によって敵対的な例を初期化し、複雑なヒューリスティック アルゴリズムを利用して敵対的な摂動を最適化する傾向があります。
これらの方法では多くのモデル クエリが必要となり、攻撃の成功率は攻撃者の初期化によって制限されます。
この論文では、局所的に説明可能な手法を活用して単語の重要度ランキングを近似し、その後ビーム探索を採用して最適解を見つける、Lime Attack という名前の新しいハードラベル攻撃アルゴリズムを提案します。
広範な実験により、同じクエリ バジェットの下で、Lime Attack が既存のハードラベル攻撃と比較して、より優れた攻撃パフォーマンスを実現することが示されています。
さらに、大規模な言語モデルに対する Lime Attack の有効性を評価し、その結果、敵対的な例が依然として大規模な言語モデルにとって重大な脅威であることが示されました。
Lime Attack によって作成された敵対的サンプルは移植性が高く、敵対的トレーニングにおけるモデルの堅牢性を効果的に向上させます。
要約(オリジナル)
Natural language processing models are vulnerable to adversarial examples. Previous textual adversarial attacks adopt gradients or confidence scores to calculate word importance ranking and generate adversarial examples. However, this information is unavailable in the real world. Therefore, we focus on a more realistic and challenging setting, named hard-label attack, in which the attacker can only query the model and obtain a discrete prediction label. Existing hard-label attack algorithms tend to initialize adversarial examples by random substitution and then utilize complex heuristic algorithms to optimize the adversarial perturbation. These methods require a lot of model queries and the attack success rate is restricted by adversary initialization. In this paper, we propose a novel hard-label attack algorithm named LimeAttack, which leverages a local explainable method to approximate word importance ranking, and then adopts beam search to find the optimal solution. Extensive experiments show that LimeAttack achieves the better attacking performance compared with existing hard-label attack under the same query budget. In addition, we evaluate the effectiveness of LimeAttack on large language models, and results indicate that adversarial examples remain a significant threat to large language models. The adversarial examples crafted by LimeAttack are highly transferable and effectively improve model robustness in adversarial training.
arxiv情報
著者 | Hai Zhu,Zhaoqing Yang,Weiwei Shang,Yuren Wu |
発行日 | 2023-08-01 06:30:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google