要約
モデルのマージは、複数のシングルタスクの微調整されたモデルを統合されたモデルに統合するための費用対効果の高いアプローチとして大きな注目を集めています。
ただし、既存のモデルのマージテクニックは、主にタスク固有のモデル間の競合の解決に焦点を当てており、潜在的なセキュリティの脅威、特にオープンフォースモデルのエコシステムにおけるバックドア攻撃のリスクを見落としていることがよくあります。
この論文では、最初に、既存のモデルのマージメソッドの脆弱性をバックドア攻撃に調査し、バックドアの継承とバックドア転送という2つの重要な課題を特定します。
これらの問題に対処するために、タスクの干渉とバックドアの脆弱性を同時に軽減する、新しい防衛を意識したマージ(DAM)アプローチを提案します。
具体的には、DAMはデュアルマスクを使用したメタラーニングベースの最適化方法を採用して、モデルマージの共有および安全性の高いサブスペースを識別します。
これらのマスクは交互に最適化されています。タスク共有マスクは、タスク全体で一般的な有益なパラメーターを識別し、干渉を減らしながらタスク固有の知識を維持することを目的としています。
このデュアルマスク設計により、有用な知識の保存と潜在的な脆弱性の除去を慎重にバランスさせることができます。
既存のマージ方法と比較して、DAMはパフォーマンスとセキュリティの間でより好ましいバランスをとっており、攻撃の成功率を2〜10パーセントポイント削減しながら、精度は約1%しか犠牲にしません。
さらに、ダムは、さまざまな種類のバックドア攻撃と、マージプロセスに関与する妥協したモデルの数にわたって、堅牢なパフォーマンスと幅広い適用性を示します。
私たちのコードとモデルは、https://github.com/yangjinluan/damで入手できます。
要約(オリジナル)
Model merging has gained significant attention as a cost-effective approach to integrate multiple single-task fine-tuned models into a unified one that can perform well on multiple tasks. However, existing model merging techniques primarily focus on resolving conflicts between task-specific models, they often overlook potential security threats, particularly the risk of backdoor attacks in the open-source model ecosystem. In this paper, we first investigate the vulnerabilities of existing model merging methods to backdoor attacks, identifying two critical challenges: backdoor succession and backdoor transfer. To address these issues, we propose a novel Defense-Aware Merging (DAM) approach that simultaneously mitigates task interference and backdoor vulnerabilities. Specifically, DAM employs a meta-learning-based optimization method with dual masks to identify a shared and safety-aware subspace for model merging. These masks are alternately optimized: the Task-Shared mask identifies common beneficial parameters across tasks, aiming to preserve task-specific knowledge while reducing interference, while the Backdoor-Detection mask isolates potentially harmful parameters to neutralize security threats. This dual-mask design allows us to carefully balance the preservation of useful knowledge and the removal of potential vulnerabilities. Compared to existing merging methods, DAM achieves a more favorable balance between performance and security, reducing the attack success rate by 2-10 percentage points while sacrificing only about 1% in accuracy. Furthermore, DAM exhibits robust performance and broad applicability across various types of backdoor attacks and the number of compromised models involved in the merging process. Our codes and models are available at https://github.com/Yangjinluan/DAM.
arxiv情報
著者 | Jinluan Yang,Anke Tang,Didi Zhu,Zhengyu Chen,Li Shen,Fei Wu |
発行日 | 2025-02-27 17:08:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google