Chain Association-based Attacking and Shielding Natural Language Processing Systems

要約

贈り物としての連想により、人々は何かを完全に率直な言葉で言及する必要がなく、他の人が何を言及しようとしているのかを理解できるようになります。
この論文では、人間と機械の間の理解力のギャップを利用した、自然言語処理システムに対する連鎖連合ベースの敵対的攻撃を提案します。
まず、潜在的な敵対例の検索空間を構築するための連想パラダイムに基づいて、漢字の連鎖連想グラフを生成します。
次に、最適な敵対的な例を検索するための離散粒子群最適化アルゴリズムを導入します。
私たちは包括的な実験を実施し、大規模な言語モデルを含む高度な自然言語処理モデルとアプリケーションが私たちの攻撃に対して脆弱である一方で、人間は混乱したテキストを理解するのが得意であるように見えることを示しています。
また、チェーン アソシエーション ベースの攻撃からシステムを保護するための、敵対的トレーニングと連想グラフ ベースの回復を含む 2 つの方法についても調査します。
いくつかの例に軽蔑的な用語が使用されているため、この文書には一部の人にとって不快または不快にさせる内容が含まれています。

要約(オリジナル)

Association as a gift enables people do not have to mention something in completely straightforward words and allows others to understand what they intend to refer to. In this paper, we propose a chain association-based adversarial attack against natural language processing systems, utilizing the comprehension gap between humans and machines. We first generate a chain association graph for Chinese characters based on the association paradigm for building search space of potential adversarial examples. Then, we introduce an discrete particle swarm optimization algorithm to search for the optimal adversarial examples. We conduct comprehensive experiments and show that advanced natural language processing models and applications, including large language models, are vulnerable to our attack, while humans appear good at understanding the perturbed text. We also explore two methods, including adversarial training and associative graph-based recovery, to shield systems from chain association-based attack. Since a few examples that use some derogatory terms, this paper contains materials that may be offensive or upsetting to some people.

arxiv情報

著者 Jiacheng Huang,Long Chen
発行日 2024-11-12 14:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク