SynGhost: Invisible and Universal Task-agnostic Backdoor Attack via Syntactic Transfer

要約

事前学習は顕著な性能を達成するが、データと学習メカニズムの脆弱性により、タスクに依存しないバックドア攻撃に悩まされる。これらの攻撃は、様々な下流タスクにバックドアを転送する可能性がある。本論文では、このようなリスクを軽減するエントロピーベースのポイズニングフィルタ$mathtt{maxEntropy}$を紹介する。手動のターゲット設定と明示的なトリガーの限界を克服するために、構文転送を介した不可視で普遍的なタスクにとらわれないバックドア攻撃である$mathtt{SynGhost}$を提案し、事前に訓練された言語モデル(PLM)の脆弱性をさらに暴露する。具体的には、$mathtt{SynGhost}$は、PLMの事前学習機能を維持しながら、コーパスポイズニングを通じて、複数の構文バックドアを事前学習空間に注入する。第二に、$mathtt{SynGhost}$は対比学習に基づいて最適なターゲットを適応的に選択し、事前学習空間に一様な分布を作る。構文の違いを識別するために、バックドア間の干渉を最小化するアウェアネスモジュールも導入する。実験により、$mathtt{SynGhost}$は重大な脅威を与え、様々な下流タスクに転移できることが示された。さらに、$mathtt{SynGhost}$はperplexity、fine-pruning、$mathtt{maxEntropy}$に基づく防御に抵抗する。コードはhttps://github.com/Zhou-CyberSecurity-AI/SynGhost。

要約(オリジナル)

Although pre-training achieves remarkable performance, it suffers from task-agnostic backdoor attacks due to vulnerabilities in data and training mechanisms. These attacks can transfer backdoors to various downstream tasks. In this paper, we introduce $\mathtt{maxEntropy}$, an entropy-based poisoning filter that mitigates such risks. To overcome the limitations of manual target setting and explicit triggers, we propose $\mathtt{SynGhost}$, an invisible and universal task-agnostic backdoor attack via syntactic transfer, further exposing vulnerabilities in pre-trained language models (PLMs). Specifically, $\mathtt{SynGhost}$ injects multiple syntactic backdoors into the pre-training space through corpus poisoning, while preserving the PLM’s pre-training capabilities. Second, $\mathtt{SynGhost}$ adaptively selects optimal targets based on contrastive learning, creating a uniform distribution in the pre-training space. To identify syntactic differences, we also introduce an awareness module to minimize interference between backdoors. Experiments show that $\mathtt{SynGhost}$ poses significant threats and can transfer to various downstream tasks. Furthermore, $\mathtt{SynGhost}$ resists defenses based on perplexity, fine-pruning, and $\mathtt{maxEntropy}$. The code is available at https://github.com/Zhou-CyberSecurity-AI/SynGhost.

arxiv情報

著者 Pengzhou Cheng,Wei Du,Zongru Wu,Fengwei Zhang,Libo Chen,Zhuosheng Zhang,Gongshen Liu
発行日 2025-03-03 06:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク