Here’s a Free Lunch: Sanitizing Backdoored Models with Model Merge

要約

オープンソースの取り組みを通じて、事前に訓練された言語モデルが民主化されたことで、技術革新が急速に進み、最先端技術へのアクセスが拡大しました。しかし、このオープン性は、特定の入力によって隠された悪意のある動作がトリガーされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃などの重大なセキュリティリスクももたらします。本稿では、バックドア化されたモデルを他の同種のモデルとマージすることで、そのようなモデルが完全に安全でない場合でも、バックドアの脆弱性を大幅に改善できることを提案する。我々の実験では、様々なモデル(BERT-Base、RoBERTa-Large、Llama2-7B、Mistral-7B)とデータセット(SST-2、OLID、AG News、QNLI)を用いて我々の仮説を検証した。複数の先進的な防御アプローチと比較して、我々の手法は、追加のリソースや特定の知識なしに、分類や命令チューニングタスクに対するバックドア攻撃に対する効果的かつ効率的な推論段階の防御を提供する。我々のアプローチは、最近の先進的なベースラインを常に凌駕し、攻撃の成功率を平均で約75%削減する。モデルのマージは、モデルの性能を向上させるための確立されたアプローチであるため、防御に関する追加的な利点は、コストのかからないボーナスと見なすことができる。

要約(オリジナル)

The democratization of pre-trained language models through open-source initiatives has rapidly advanced innovation and expanded access to cutting-edge technologies. However, this openness also brings significant security risks, including backdoor attacks, where hidden malicious behaviors are triggered by specific inputs, compromising natural language processing (NLP) system integrity and reliability. This paper suggests that merging a backdoored model with other homogeneous models can significantly remediate backdoor vulnerabilities even if such models are not entirely secure. In our experiments, we verify our hypothesis on various models (BERT-Base, RoBERTa-Large, Llama2-7B, and Mistral-7B) and datasets (SST-2, OLID, AG News, and QNLI). Compared to multiple advanced defensive approaches, our method offers an effective and efficient inference-stage defense against backdoor attacks on classification and instruction-tuned tasks without additional resources or specific knowledge. Our approach consistently outperforms recent advanced baselines, leading to an average of about 75% reduction in the attack success rate. Since model merging has been an established approach for improving model performance, the extra advantage it provides regarding defense can be seen as a cost-free bonus.

arxiv情報

著者 Ansh Arora,Xuanli He,Maximilian Mozes,Srinibas Swain,Mark Dras,Qiongkai Xu
発行日 2024-06-03 16:19:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク