Here’s a Free Lunch: Sanitizing Backdoored Models with Model Merge

要約

オープンソースの取り組みによる事前トレーニング済み言語モデルの民主化により、イノベーションが急速に進み、最先端のテクノロジーへのアクセスが拡大しました。
ただし、このオープン性は、バックドア攻撃などの重大なセキュリティ リスクももたらします。バックドア攻撃では、特定の入力によって隠れた悪意のある動作が引き起こされ、自然言語処理 (NLP) システムの整合性と信頼性が損なわれます。
この論文は、バックドアモデルを他の同種モデルとマージすることで、そのようなモデルが完全に安全ではない場合でもバックドアの脆弱性を修復できることを示唆しています。
私たちの実験では、さまざまなモデル (BERT-Base、RoBERTa-Large、Llama2-7B、および Mistral-7B) とデータセット (SST-2、OLID、AG News、および QNLI) を調査します。
複数の高度な防御アプローチと比較して、私たちの方法は、追加のリソースや特定の知識がなくても、バックドア攻撃に対する効果的かつ効率的な推論段階の防御を提供します。
私たちのアプローチは他の先進的なベースラインを常に上回り、攻撃の成功率を平均 75% 削減します。
モデルのマージはモデルのパフォーマンスを向上させるための確立されたアプローチであるため、防御に関してそれがもたらす追加の利点はコストのかからないボーナスとみなすことができます。

要約(オリジナル)

The democratization of pre-trained language models through open-source initiatives has rapidly advanced innovation and expanded access to cutting-edge technologies. However, this openness also brings significant security risks, including backdoor attacks, where hidden malicious behaviors are triggered by specific inputs, compromising natural language processing (NLP) system integrity and reliability. This paper suggests that merging a backdoored model with other homogeneous models can remediate backdoor vulnerabilities even if such models are not entirely secure. In our experiments, we explore various models (BERT-Base, RoBERTa-Large, Llama2-7B, and Mistral-7B) and datasets (SST-2, OLID, AG News, and QNLI). Compared to multiple advanced defensive approaches, our method offers an effective and efficient inference-stage defense against backdoor attacks without additional resources or specific knowledge. Our approach consistently outperforms the other advanced baselines, leading to an average of 75% reduction in the attack success rate. Since model merging has been an established approach for improving model performance, the extra advantage it provides regarding defense can be seen as a cost-free bonus.

arxiv情報

著者 Ansh Arora,Xuanli He,Maximilian Mozes,Srinibas Swain,Mark Dras,Qiongkai Xu
発行日 2024-02-29 16:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク