Preserving Semantics in Textual Adversarial Attacks

要約

憎しみに満ちたオンライン コンテンツ、またはヘイト スピーチの増加は、マイノリティに対する暴力犯罪の世界的な増加と関連しています [23]。
有害なオンライン コンテンツは、簡単に、自動的に、匿名で作成される可能性があります。
NLP のテキスト分類子を通じて何らかの形式の自動検出がすでに実現されていますが、敵対的な攻撃によってだまされる可能性があります。
既存のシステムを強化し、攻撃者の先を行くには、より優れた敵対的攻撃が必要です。
この論文では、敵対的攻撃によって生成された敵対的例の最大 70% は、セマンティクスが保持されないため破棄する必要があることを示します。
私たちはこの中心的な弱点に対処し、Semantics-Preserving-Encoder (SPE) と呼ばれる、完全に監視された新しい文埋め込み技術を提案します。
私たちの手法は、実際の攻撃の成功率が 1.2 倍から 5.1 倍に達し、敵対的攻撃で使用される既存のセンテンス エンコーダよりも優れたパフォーマンスを発揮します。
私たちはコードをプラグインとしてリリースし、既存の敵対的攻撃で品質を向上させ、実行を高速化するために使用できます。

要約(オリジナル)

The growth of hateful online content, or hate speech, has been associated with a global increase in violent crimes against minorities [23]. Harmful online content can be produced easily, automatically and anonymously. Even though, some form of auto-detection is already achieved through text classifiers in NLP, they can be fooled by adversarial attacks. To strengthen existing systems and stay ahead of attackers, we need better adversarial attacks. In this paper, we show that up to 70% of adversarial examples generated by adversarial attacks should be discarded because they do not preserve semantics. We address this core weakness and propose a new, fully supervised sentence embedding technique called Semantics-Preserving-Encoder (SPE). Our method outperforms existing sentence encoders used in adversarial attacks by achieving 1.2x – 5.1x better real attack success rate. We release our code as a plugin that can be used in any existing adversarial attack to improve its quality and speed up its execution.

arxiv情報

著者 David Herel,Hugo Cisneros,Tomas Mikolov
発行日 2023-10-05 20:13:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク