A Survey of Adversarial Defences and Robustness in NLP

要約

タイトル:自然言語処理における敵対的防御と堅牢性に関する調査
要約:
– 深層ニューラルネットワークは、入力データの敵対的摂動に耐えられないことが明らかになり、攻撃に脆弱であることが分かってきた。
– これに対し、多くの論文で強い敵対的攻撃が提案され、防御機構が提案されるようになった。
– 敵対的攻撃に対する防御の重要性は、入力データに変化があってもモデルの予測が変更されないことを確認することにある。
– 自然言語処理タスクに応じて、テキスト分類、名前エンティティ認識、自然言語推論など、さまざまな敵対的防御方法が提案されている。
– これらの方法の中には、敵対的攻撃に対してニューラルネットワークを防御するだけでなく、過学習からモデルを救う正則化メカニズムとしても機能するものもある。
– この調査は、過去数年間に提案された自然言語処理における敵対的防御方法を、新しい分類方法を導入してレビューすることを目的としています。
– この調査はまた、高度な深層ニューラルネットワークが敏感であることと、それらを防御することに関する課題にも焦点を当てています。

要約(オリジナル)

In the past few years, it has become increasingly evident that deep neural networks are not resilient enough to withstand adversarial perturbations in input data, leaving them vulnerable to attack. Various authors have proposed strong adversarial attacks for computer vision and Natural Language Processing (NLP) tasks. As a response, many defense mechanisms have also been proposed to prevent these networks from failing. The significance of defending neural networks against adversarial attacks lies in ensuring that the model’s predictions remain unchanged even if the input data is perturbed. Several methods for adversarial defense in NLP have been proposed, catering to different NLP tasks such as text classification, named entity recognition, and natural language inference. Some of these methods not only defend neural networks against adversarial attacks but also act as a regularization mechanism during training, saving the model from overfitting. This survey aims to review the various methods proposed for adversarial defenses in NLP over the past few years by introducing a novel taxonomy. The survey also highlights the fragility of advanced deep neural networks in NLP and the challenges involved in defending them.

arxiv情報

著者 Shreya Goyal,Sumanth Doddapaneni,Mitesh M. Khapra,Balaraman Ravindran
発行日 2023-04-18 05:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク