NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning

要約

現在、バックドア攻撃はディープラーニングモデルに大きな害を与えるとして注目されている。敵対者が学習データを毒化することで、毒化されたデータセットを用いて被害者が無意識に学習したモデルにバックドアが注入される。しかし、テキストの分野では、既存の作品はバックドア攻撃に対する十分な防御を提供しない。本論文では、信頼できないデータを用いてモデルを訓練する際に、テキストのバックドア攻撃から防御するためのノイズ強調対照学習(NCL)フレームワークを提案する。トリガーとターゲットラベルの間のマッピングを緩和することを目的として、バックドアの可能性のあるトリガーに適切なノイズを加え、トレーニングデータセットを増強し、コントラスト学習の目的を利用して特徴空間内のホモロジーサンプルを引き出す。実験により、3種類のテキストバックドア攻撃に対する本手法の有効性が実証され、先行研究を凌駕している。

要約(オリジナル)

At present, backdoor attacks attract attention as they do great harm to deep learning models. The adversary poisons the training data making the model being injected with a backdoor after being trained unconsciously by victims using the poisoned dataset. In the field of text, however, existing works do not provide sufficient defense against backdoor attacks. In this paper, we propose a Noise-augmented Contrastive Learning (NCL) framework to defend against textual backdoor attacks when training models with untrustworthy data. With the aim of mitigating the mapping between triggers and the target label, we add appropriate noise perturbing possible backdoor triggers, augment the training dataset, and then pull homology samples in the feature space utilizing contrastive learning objective. Experiments demonstrate the effectiveness of our method in defending three types of textual backdoor attacks, outperforming the prior works.

arxiv情報

著者 Shengfang Zhai,Qingni Shen,Xiaoyi Chen,Weilong Wang,Cong Li,Yuejian Fang,Zhonghai Wu
発行日 2023-03-03 07:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR パーマリンク