Masked Language Model Based Textual Adversarial Example Detection

要約

タイトル:マスクされた言語モデルに基づくテキストに対する敵対的例検出

要約:

– 機械学習モデルに対する敵対的攻撃は、安全性に関わるアプリケーションで信頼性のあるデプロイメントを脅かす深刻な脅威である。
– 最近の研究では、敵対的例は通常の例の基礎となるデータマニホールドから逸脱する傾向があり、一方、事前に学習されたマスクされた言語モデルは通常のNLPデータのマニホールドに合わせることができることが示されている。
– マスクされた言語モデルをどのようにして敵対的検出に使用するかを探るために、本研究では、新しいテキスト敵対的例検出手法を提案する。この手法は、マスクされた言語モデルによって誘発されるマニホールドの変化を探索することにより、正常な例と敵対的例の間に明確に区別可能な信号を生成することができる。
– この手法は、被害者モデルの再トレーニングが必要なく、分類タスク、被害者モデルのアーキテクチャ、防御攻撃方法に対して依存しない。
– MLMDは、さまざまなベンチマーク・テキスト・データセット、広く研究されている機械学習モデル、そして最先端の敵対的攻撃について評価され、48の設定で検出精度が0.984、0.967、および0.901に達することが示された。
– さらに、MLMDは、検出精度やF1スコアにおいて、敵対的例のマニホールドに関する従来の防御策と比較して優れているか、少なくとも同等である。
– 多くの防御策のうち、敵対的例のオフ・マニホールド前提に基づくものがあるが、この研究では、マニホールドの変化を捕捉する新しい視点が提示されている。また、本研究のコードは、\url{https://github.com/mlmddetection/MLMDdetection}で公開されている。

要約(オリジナル)

Adversarial attacks are a serious threat to the reliable deployment of machine learning models in safety-critical applications. They can misguide current models to predict incorrectly by slightly modifying the inputs. Recently, substantial work has shown that adversarial examples tend to deviate from the underlying data manifold of normal examples, whereas pre-trained masked language models can fit the manifold of normal NLP data. To explore how to use the masked language model in adversarial detection, we propose a novel textual adversarial example detection method, namely Masked Language Model-based Detection (MLMD), which can produce clearly distinguishable signals between normal examples and adversarial examples by exploring the changes in manifolds induced by the masked language model. MLMD features a plug and play usage (i.e., no need to retrain the victim model) for adversarial defense and it is agnostic to classification tasks, victim model’s architectures, and to-be-defended attack methods. We evaluate MLMD on various benchmark textual datasets, widely studied machine learning models, and state-of-the-art (SOTA) adversarial attacks (in total $3*4*4 = 48$ settings). Experimental results show that MLMD can achieve strong performance, with detection accuracy up to 0.984, 0.967, and 0.901 on AG-NEWS, IMDB, and SST-2 datasets, respectively. Additionally, MLMD is superior, or at least comparable to, the SOTA detection defenses in detection accuracy and F1 score. Among many defenses based on the off-manifold assumption of adversarial examples, this work offers a new angle for capturing the manifold change. The code for this work is openly accessible at \url{https://github.com/mlmddetection/MLMDdetection}.

arxiv情報

著者 Xiaomei Zhang,Zhaoxi Zhang,Qi Zhong,Xufei Zheng,Yanjun Zhang,Shengshan Hu,Leo Yu Zhang
発行日 2023-04-19 11:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR パーマリンク