In and Out-of-Domain Text Adversarial Robustness via Label Smoothing

要約

最近、最先端の NLP モデルは敵対的攻撃に対して脆弱であることが示されており、入力へのわずかな変更 (同義語の置換など) によってモデルの予測が大幅に変更される可能性があります。
テキスト敵対的攻撃の離散的な性質に合わせていくつかの防御手法が提案され、適応されていますが、言語モデルのラベル スムージングなどの汎用の正規化手法の利点については研究されていません。
この論文では、ドメイン内とドメイン外の両方の設定における多様な NLP タスクの基礎モデルにおけるさまざまなラベル スムージング戦略によって提供される敵対的な堅牢性を研究します。
私たちの実験では、ラベル スムージングにより、BERT のような事前トレーニング済みモデルにおける敵対的な堅牢性が、一般的なさまざまな攻撃に対して大幅に向上することが示されています。
また、予測の信頼性とロバスト性の関係も分析し、ラベルの平滑化により敵対的な例での過信エラーが減少することを示します。

要約(オリジナル)

Recently it has been shown that state-of-the-art NLP models are vulnerable to adversarial attacks, where the predictions of a model can be drastically altered by slight modifications to the input (such as synonym substitutions). While several defense techniques have been proposed, and adapted, to the discrete nature of text adversarial attacks, the benefits of general-purpose regularization methods such as label smoothing for language models, have not been studied. In this paper, we study the adversarial robustness provided by various label smoothing strategies in foundational models for diverse NLP tasks in both in-domain and out-of-domain settings. Our experiments show that label smoothing significantly improves adversarial robustness in pre-trained models like BERT, against various popular attacks. We also analyze the relationship between prediction confidence and robustness, showing that label smoothing reduces over-confident errors on adversarial examples.

arxiv情報

著者 Yahan Yang,Soham Dan,Dan Roth,Insup Lee
発行日 2023-07-11 19:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク