Single Word Change is All You Need: Designing Attacks and Defenses for Text Classifiers

要約

テキスト分類において、敵対的な例を作成するということは、意味を変えずに文中のいくつかの単語を微妙に混乱させ、分類器によって誤分類されることを意味します。
懸念すべき観察は、既存の方法によって生成された敵対的な例のかなりの部分が 1 つの単語だけを変更するということです。
この単一単語の摂動の脆弱性は分類器の重大な弱点を表しており、悪意のあるユーザーがこれを悪用して多数の敵対的な例を効率的に作成する可能性があります。
この論文はこの問題を研究し、次の重要な貢献をします: (1) 単一単語の摂動に対する分類器の堅牢性を定量的に評価するための新しい指標 \r{ho} を導入します。
(2) 我々は、単一単語摂動の脆弱性を悪用するように設計された SP 攻撃を紹介します。これは、最先端の敵対的手法と比較して、計算コストを削減しながら、より高い攻撃成功率を達成し、文の意味をより良く保存します。
(3) 学習にデータ拡張を適用することで \r{ho} の改善を目指す SP-Defence を提案します。
4 つのデータセットと BERT および distilBERT 分類子に関する実験結果は、SP- Defense が \r{ho} を 2 つの分類子でそれぞれ 14.6% と 13.9% 改善し、SP- Attack の攻撃成功率を 30.4% と 21.2% 減少させ、
複数の単語の摂動を伴う既存の攻撃手法の攻撃成功率。

要約(オリジナル)

In text classification, creating an adversarial example means subtly perturbing a few words in a sentence without changing its meaning, causing it to be misclassified by a classifier. A concerning observation is that a significant portion of adversarial examples generated by existing methods change only one word. This single-word perturbation vulnerability represents a significant weakness in classifiers, which malicious users can exploit to efficiently create a multitude of adversarial examples. This paper studies this problem and makes the following key contributions: (1) We introduce a novel metric \r{ho} to quantitatively assess a classifier’s robustness against single-word perturbation. (2) We present the SP-Attack, designed to exploit the single-word perturbation vulnerability, achieving a higher attack success rate, better preserving sentence meaning, while reducing computation costs compared to state-of-the-art adversarial methods. (3) We propose SP-Defense, which aims to improve \r{ho} by applying data augmentation in learning. Experimental results on 4 datasets and BERT and distilBERT classifiers show that SP-Defense improves \r{ho} by 14.6% and 13.9% and decreases the attack success rate of SP-Attack by 30.4% and 21.2% on two classifiers respectively, and decreases the attack success rate of existing attack methods that involve multiple-word perturbations.

arxiv情報

著者 Lei Xu,Sarah Alnegheimish,Laure Berti-Equille,Alfredo Cuesta-Infante,Kalyan Veeramachaneni
発行日 2024-01-30 17:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク