要約
大規模言語モデル (LLM) は大幅な進歩を遂げ、理解から推論に至るまで、さまざまな自然言語処理 (NLP) タスクで優れたパフォーマンスを達成しました。
ただし、バックドア攻撃に対しては脆弱なままです。バックドア攻撃では、モデルは標準クエリに対しては通常どおり動作しますが、特定のトリガーがアクティブになると有害な応答や意図しない出力が生成されます。
既存のバックドア防御は、多くの場合、削除せずに検出に重点を置いている、トリガーのプロパティに関する厳密な仮定に依存している、またはマルチトリガー バックドアのような高度な攻撃に対して無効であることが証明されているという欠点があります。
この論文では、内部メカニズムと外部メカニズムの両方を使用して情報競合を構築することにより、LLM からバックドア動作を排除する新しい方法を紹介します。
内部的には、軽量のデータセットを利用して競合モデルをトレーニングし、その後バックドアモデルとマージして、モデルのパラメトリックメモリ内に矛盾する情報を埋め込むことで悪意のある動作を無力化します。
外部的には、説得力のある矛盾した証拠をプロンプトに組み込み、モデルの内部バックドア知識に異議を唱えます。
広く使用されている 4 つの LLM にわたる分類タスクと会話タスクに関する実験結果は、私たちの手法が 8 つの最先端のバックドア防御ベースラインを上回るパフォーマンスを示していることを示しています。
90% 以上のクリーン データの精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大 98% 削減できます。
さらに、私たちの方法は適応型バックドア攻撃に対して堅牢であることが証明されています。
コードは公開と同時にオープンソース化されます。
要約(オリジナル)
Large language models (LLMs) have seen significant advancements, achieving superior performance in various Natural Language Processing (NLP) tasks, from understanding to reasoning. However, they remain vulnerable to backdoor attacks, where models behave normally for standard queries but generate harmful responses or unintended output when specific triggers are activated. Existing backdoor defenses often suffer from drawbacks that they either focus on detection without removal, rely on rigid assumptions about trigger properties, or prove to be ineffective against advanced attacks like multi-trigger backdoors. In this paper, we present a novel method to eliminate backdoor behaviors from LLMs through the construction of information conflicts using both internal and external mechanisms. Internally, we leverage a lightweight dataset to train a conflict model, which is then merged with the backdoored model to neutralize malicious behaviors by embedding contradictory information within the model’s parametric memory. Externally, we incorporate convincing contradictory evidence into the prompt to challenge the model’s internal backdoor knowledge. Experimental results on classification and conversational tasks across 4 widely used LLMs demonstrate that our method outperforms 8 state-of-the-art backdoor defense baselines. We can reduce the attack success rate of advanced backdoor attacks by up to 98% while maintaining over 90% clean data accuracy. Furthermore, our method has proven to be robust against adaptive backdoor attacks. The code will be open-sourced upon publication.
arxiv情報
著者 | Chen Chen,Yuchen Sun,Xueluan Gong,Jiaxin Gao,Kwok-Yan Lam |
発行日 | 2024-11-27 12:15:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google