Generating Valid and Natural Adversarial Examples with Large Language Models

要約

深層学習ベースの自然言語処理 (NLP) モデル、特に事前トレーニング済み言語モデル (PLM) は、敵対的攻撃に対して脆弱であることが明らかになりました。
しかし、多くの主流の単語レベルの敵対的攻撃モデルによって生成される敵対的な例は有効でも自然でもないため、意味の維持、文法性、および人間の知覚不可能性の喪失につながります。
言語理解と大規模言語モデル (LLM) の生成の卓越した能力に基づいて、LLM を使用して有効かつ自然な敵対例の両方を生成することを目的とした LLM 攻撃を提案します。
この方法は、単語の重要度ランキング (最も脆弱な単語を検索する) と単語の同義語置換 (LLM から取得した同義語で置き換える) の 2 つの段階で構成されます。
ベースラインの敵対的攻撃モデルに対する Movie Review (MR)、IMDB、および Yelp Review Polarity データセットの実験結果は、LLM 攻撃の有効性を示しており、人間によるベースラインおよび GPT-4 の評価を大幅に上回っています。
このモデルは、意味論的な意味、文法性、および人間の知覚不可能性を維持しながら、通常は有効で自然な敵対的な例を生成できます。

要約(オリジナル)

Deep learning-based natural language processing (NLP) models, particularly pre-trained language models (PLMs), have been revealed to be vulnerable to adversarial attacks. However, the adversarial examples generated by many mainstream word-level adversarial attack models are neither valid nor natural, leading to the loss of semantic maintenance, grammaticality, and human imperceptibility. Based on the exceptional capacity of language understanding and generation of large language models (LLMs), we propose LLM-Attack, which aims at generating both valid and natural adversarial examples with LLMs. The method consists of two stages: word importance ranking (which searches for the most vulnerable words) and word synonym replacement (which substitutes them with their synonyms obtained from LLMs). Experimental results on the Movie Review (MR), IMDB, and Yelp Review Polarity datasets against the baseline adversarial attack models illustrate the effectiveness of LLM-Attack, and it outperforms the baselines in human and GPT-4 evaluation by a significant margin. The model can generate adversarial examples that are typically valid and natural, with the preservation of semantic meaning, grammaticality, and human imperceptibility.

arxiv情報

著者 Zimu Wang,Wei Wang,Qi Chen,Qiufeng Wang,Anh Nguyen
発行日 2023-11-20 15:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク