Sample Attackability in Natural Language Adversarial Attacks

要約

自然言語処理 (NLP) における敵対的攻撃の研究は、強力な攻撃方法と防御アプローチの設計において大きな進歩を遂げました。
しかし、どのソース サンプルが最も攻撃されやすいか、または最も堅牢であるかを特定しようとする取り組みはほとんどありません。つまり、目に見えないターゲット モデルについて、どのサンプルが敵対的攻撃に対して最も脆弱かを判断できるでしょうか。
この研究は、NLP 攻撃に対するサンプルの攻撃性/堅牢性の定義を正式に拡張します。
2 つの人気のある NLP データセット、4 つの最先端モデル、および 4 つの異なる NLP 敵対的攻撃手法を用いた実験では、攻撃可能/堅牢なサンプルの特性を説明するにはサンプルの不確実性が不十分であるため、ディープ ラーニング ベースの検出器が最も優れたサンプルの特定に優れていることが実証されました。
目に見えないターゲットモデルに対する攻撃可能で堅牢なサンプル。
それにもかかわらず、さらなる分析により、さまざまな NLP 攻撃手法間でどのサンプルが最も攻撃可能/堅牢であると考えられるかについてはほとんど一致が見られず、攻撃手法間での攻撃可能性検出手法の移植性の欠如が説明されています。

要約(オリジナル)

Adversarial attack research in natural language processing (NLP) has made significant progress in designing powerful attack methods and defence approaches. However, few efforts have sought to identify which source samples are the most attackable or robust, i.e. can we determine for an unseen target model, which samples are the most vulnerable to an adversarial attack. This work formally extends the definition of sample attackability/robustness for NLP attacks. Experiments on two popular NLP datasets, four state of the art models and four different NLP adversarial attack methods, demonstrate that sample uncertainty is insufficient for describing characteristics of attackable/robust samples and hence a deep learning based detector can perform much better at identifying the most attackable and robust samples for an unseen target model. Nevertheless, further analysis finds that there is little agreement in which samples are considered the most attackable/robust across different NLP attack methods, explaining a lack of portability of attackability detection methods across attack methods.

arxiv情報

著者 Vyas Raina,Mark Gales
発行日 2023-06-21 06:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク