要約
大規模な言語モデルは、多くの言語タスクにわたって最先端のパフォーマンスを達成しました。
ただし、敵対的な言語の例、つまり、言語モデルをだますために最適化されているが、人間にとって同様の意味論的な意味を持つ文では失敗します。
これまでの研究では、トレーニング時に言語モデルを堅牢にすることに重点が置かれていましたが、大規模な基礎モデルの場合、堅牢性を高めるための再トレーニングは非現実的であることがよくあります。
代わりに、テスト時に言語モデルを堅牢にすることを提案します。
マスクされた単語からの予測を使用して入力文を動的に適応させることにより、多くの言語敵対的攻撃を逆転できることを示します。
私たちのアプローチはトレーニングを必要としないため、テスト時に新しいタスクに機能し、新しい敵対的な破損にも適応できます。
2 つの一般的な文分類データセットの視覚化と経験的結果は、私たちの方法が敵対的な言語攻撃を 65% 以上修復できることを示しています。
要約(オリジナル)
Large-scale language models achieved state-of-the-art performance over a number of language tasks. However, they fail on adversarial language examples, which are sentences optimized to fool the language models but with similar semantic meanings for humans. While prior work focuses on making the language model robust at training time, retraining for robustness is often unrealistic for large-scale foundation models. Instead, we propose to make the language models robust at test time. By dynamically adapting the input sentence with predictions from masked words, we show that we can reverse many language adversarial attacks. Since our approach does not require any training, it works for novel tasks at test time and can adapt to novel adversarial corruptions. Visualizations and empirical results on two popular sentence classification datasets demonstrate that our method can repair adversarial language attacks over 65% o
arxiv情報
著者 | Noah Thomas McDermott,Junfeng Yang,Chengzhi Mao |
発行日 | 2023-10-29 22:37:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google