Attack Named Entity Recognition by Entity Boundary Interference

要約

タイトル:エンティティの境界干渉による名前付きエンティティ認識への攻撃

要約:

– 名前付きエンティティ認識(NER)は、自然言語処理(NLP)タスクの中核的なものであり、その堅牢性はほとんど注目されていない。
– この論文は、文の分類から導かれるNER攻撃の原則を再考しました。というのは、それらは元のNER例と敵対的なNER例の間のラベルの一貫性を容易に破壊できるためです。
– これは、NERの微細な性質によるものです。つまり、文のわずかな単語の変更でも、任意のエンティティが現れたり変異したりする可能性があり、無効な敵対的な例が発生するためです。
– このため、我々は、NERモデルがエンティティの境界位置を利用して決定を下すことが常に脆弱であるという重要な洞察に基づいて、新しいワードモディファイケーションNER攻撃を提案します。
– 我々は、戦略的に新しい境界を文に挿入し、被害者モデルが誤った予測を行うようにエンティティの境界干渉を誘発します。これをVirtual Boundary Attack(ViBA)と呼びます。これは、英語と中国語のモデルの両方に対して、最新の言語モデル(RoBERTa、DeBERTaなど)で70%〜90%の攻撃成功率を示し、以前の方法よりも大幅に高速です。

要約(オリジナル)

Named Entity Recognition (NER) is a cornerstone NLP task while its robustness has been given little attention. This paper rethinks the principles of NER attacks derived from sentence classification, as they can easily violate the label consistency between the original and adversarial NER examples. This is due to the fine-grained nature of NER, as even minor word changes in the sentence can result in the emergence or mutation of any entities, resulting in invalid adversarial examples. To this end, we propose a novel one-word modification NER attack based on a key insight, NER models are always vulnerable to the boundary position of an entity to make their decision. We thus strategically insert a new boundary into the sentence and trigger the Entity Boundary Interference that the victim model makes the wrong prediction either on this boundary word or on other words in the sentence. We call this attack Virtual Boundary Attack (ViBA), which is shown to be remarkably effective when attacking both English and Chinese models with a 70%-90% attack success rate on state-of-the-art language models (e.g. RoBERTa, DeBERTa) and also significantly faster than previous methods.

arxiv情報

著者 Yifei Yang,Hongqiu Wu,Hai Zhao
発行日 2023-05-09 08:21:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク