要約
言語モデル、特に基本的なテキスト分類モデルは、同義語置換や単語挿入攻撃などのテキスト敵対的攻撃の影響を受けやすいことが示されています。
このような攻撃を防ぐために、モデルの堅牢性を向上させることに研究が集中して行われています。
ただし、経験的な堅牢性ではなく証明可能な堅牢性の保証を提供することはまだ広く研究されていません。
この論文では、ランダム化平滑化に基づく自然言語処理 (NLP) のための一般化された認証された堅牢性フレームワークである Text-CRS を提案します。
私たちの知る限り、NLP の既存の認定スキームは、同義語置換攻撃における $\ell_0$ 摂動に対する堅牢性のみを認定できます。
単語レベルのそれぞれの敵対的操作 (つまり、同義語の置換、単語の並べ替え、挿入、削除) を置換と埋め込み変換の組み合わせとして表現し、そのような敵対的操作に対する置換と埋め込み空間の両方におけるロバストネス境界を導出する新しい平滑化定理を提案します。
認証された精度と半径をさらに向上させるために、離散的な単語間の数値的関係を考慮し、ランダム化された平滑化のために適切なノイズ分布を選択します。
最後に、複数の言語モデルとデータセットに対して実質的な実験を行います。
Text-CRS は、4 つの異なるワードレベルの敵対的操作すべてに対処し、大幅な精度の向上を達成できます。
また、同義語置換攻撃に対して最先端の認証を上回るパフォーマンスを示しているだけでなく、認証された精度と 4 つのワードレベルの操作の範囲に関する最初のベンチマークも提供しています。
要約(オリジナル)
The language models, especially the basic text classification models, have been shown to be susceptible to textual adversarial attacks such as synonym substitution and word insertion attacks. To defend against such attacks, a growing body of research has been devoted to improving the model robustness. However, providing provable robustness guarantees instead of empirical robustness is still widely unexplored. In this paper, we propose Text-CRS, a generalized certified robustness framework for natural language processing (NLP) based on randomized smoothing. To our best knowledge, existing certified schemes for NLP can only certify the robustness against $\ell_0$ perturbations in synonym substitution attacks. Representing each word-level adversarial operation (i.e., synonym substitution, word reordering, insertion, and deletion) as a combination of permutation and embedding transformation, we propose novel smoothing theorems to derive robustness bounds in both permutation and embedding space against such adversarial operations. To further improve certified accuracy and radius, we consider the numerical relationships between discrete words and select proper noise distributions for the randomized smoothing. Finally, we conduct substantial experiments on multiple language models and datasets. Text-CRS can address all four different word-level adversarial operations and achieve a significant accuracy improvement. We also provide the first benchmark on certified accuracy and radius of four word-level operations, besides outperforming the state-of-the-art certification against synonym substitution attacks.
arxiv情報
著者 | Xinyu Zhang,Hanbin Hong,Yuan Hong,Peng Huang,Binghui Wang,Zhongjie Ba,Kui Ren |
発行日 | 2024-06-11 15:40:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google