Defending against Insertion-based Textual Backdoor Attacks via Attribution

要約

タイトル:削除ベースのテキストバックドア攻撃に対する帰属による対策
要約:テキストバックドア攻撃は、モデルにバックドアを追加することで目的を達成する攻撃モデルであり、有効性が示されています。そのため、これに対処することは急務であり、重要となっています。本論文では、BadNLとInSentの2つの挿入ベースの攻撃に対処するために、効果的な「AttDef」という帰属ベースのパイプラインを提案しています。より具体的には、帰属スコアが高いトークンをポテンシャルトリガーとして扱います。大きな帰属単語は、偽の予測結果により多く貢献するため、より毒性の高いトリガーとなりうるからです。さらに、外部の事前学習済み言語モデルを使用して、入力が毒されているかどうかを区別することも可能です。本方法は、トレーニングデータおよびテストデータの2つの攻撃シナリオにおいて十分に一般化でき、従来の方法を改善することができます。AttDefは、先行研究に比べて、トレーニング攻撃防御およびポスト攻撃防御の場合において平均精度を79.97%(56.59%上昇)と48.34%(3.99%上昇)向上させることができ、4つのベンチマークデータセットにおいて予測回復の新しい最高値を達成しています。

要約(オリジナル)

Textual backdoor attack, as a novel attack model, has been shown to be effective in adding a backdoor to the model during training. Defending against such backdoor attacks has become urgent and important. In this paper, we propose AttDef, an efficient attribution-based pipeline to defend against two insertion-based poisoning attacks, BadNL and InSent. Specifically, we regard the tokens with larger attribution scores as potential triggers since larger attribution words contribute more to the false prediction results and therefore are more likely to be poison triggers. Additionally, we further utilize an external pre-trained language model to distinguish whether input is poisoned or not. We show that our proposed method can generalize sufficiently well in two common attack scenarios (poisoning training data and testing data), which consistently improves previous methods. For instance, AttDef can successfully mitigate both attacks with an average accuracy of 79.97% (56.59% up) and 48.34% (3.99% up) under pre-training and post-training attack defense respectively, achieving the new state-of-the-art performance on prediction recovery over four benchmark datasets.

arxiv情報

著者 Jiazhao Li,Zhuofeng Wu,Wei Ping,Chaowei Xiao,V. G. Vinod Vydiswaran
発行日 2023-05-03 19:29:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク