要約
事前トレーニングは、事前トレーニングされた言語モデル (PLM) をデプロイして、下流のタスクで優れたパフォーマンスを達成するために必要なフェーズです。
しかし、私たちはバックドア攻撃がそのようなフェーズをタスク非依存型の脆弱なエントリ ポイントとして悪用することを経験的に示しています。
この論文では、まず、エントロピー ベースのポイズニング フィルタリング防御である $\mathtt{maxEntropy}$ を提案し、明示的なトリガーが使用されているため、既存のタスクに依存しないバックドアが簡単に公開されることを証明します。
次に、PLM における知覚不可能で普遍的なタスクに依存しないバックドア攻撃である $\mathtt{SynGhost}$ を紹介します。
具体的には、$\mathtt{SynGhost}$ は、異なる構文を通じてクリーン サンプルを敵対的に操作し、プリミティブ表現を乱すことなくバックドアを表現空間にマッピングします。
$\mathtt{SynGhost}$ はさらに対照学習を活用してユニバーサルを実現し、表現空間内でバックドアの均一な分散を実行します。
構文の特性を考慮して、異なる構文間の干渉を軽減するための認識モジュールも導入します。
実験により、$\mathtt{SynGhost}$ にはさらに深刻な脅威が存在することがわかりました。
2 つの調整パラダイムに関するさまざまなダウンストリーム タスクだけでなく、あらゆる PLM にも重大な害を及ぼします。
一方、$\mathtt{SynGhost}$ は、複雑さ、細かい枝刈り、および提案された $\mathtt{maxEntropy}$ に基づく 3 つの対抗策に対して知覚できません。
要約(オリジナル)
Pre-training has been a necessary phase for deploying pre-trained language models (PLMs) to achieve remarkable performance in downstream tasks. However, we empirically show that backdoor attacks exploit such a phase as a vulnerable entry point for task-agnostic. In this paper, we first propose $\mathtt{maxEntropy}$, an entropy-based poisoning filtering defense, to prove that existing task-agnostic backdoors are easily exposed, due to explicit triggers used. Then, we present $\mathtt{SynGhost}$, an imperceptible and universal task-agnostic backdoor attack in PLMs. Specifically, $\mathtt{SynGhost}$ hostilely manipulates clean samples through different syntactic and then maps the backdoor to representation space without disturbing the primitive representation. $\mathtt{SynGhost}$ further leverages contrastive learning to achieve universal, which performs a uniform distribution of backdoors in the representation space. In light of the syntactic properties, we also introduce an awareness module to alleviate the interference between different syntactic. Experiments show that $\mathtt{SynGhost}$ holds more serious threats. Not only do severe harmfulness to various downstream tasks on two tuning paradigms but also to any PLMs. Meanwhile, $\mathtt{SynGhost}$ is imperceptible against three countermeasures based on perplexity, fine-pruning, and the proposed $\mathtt{maxEntropy}$.
arxiv情報
著者 | Pengzhou Cheng,Wei Du,Zongru Wu,Fengwei Zhang,Libo Chen,Gongshen Liu |
発行日 | 2024-05-24 15:21:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google