要約
モデルのマージは、異なるタスクで微調整された複数のモデルを統合して、複数のドメインに優れた汎用性の高いモデルを作成する新たな手法です。
その間、このスキームは、1つの悪意のあるモデルがマージモデルの完全性を危険にさらすことができるバックドア攻撃の機会を開く可能性があります。
既存の作品は、攻撃者が事前に訓練されたモデルを完全に微調整できる場合に焦点を当てて、実質的な計算リソースを想定することにより、このような攻撃のリスクを実証しようとします。
ただし、このような仮定は、機械学習モデルのサイズが増加することを考えると、実現可能ではない場合があります。
リソースが限られており、攻撃者が悪意のあるモデルを作成するために低ランク適応(LORA)などのテクニックのみを使用できる実際には、攻撃がまだ機能し、脅威をもたらすことができるかどうかは不明のままです。
この作業では、微調整にLORAを使用すると攻撃効果が大幅に減少することを最初に特定します。
次に、トレーニングリソースを最小限に抑えて高い攻撃成功率をもたらす方法であるLobamを提案します。
ロバムの重要なアイデアは、攻撃効果を効果的に向上させるインテリジェントな方法で悪意のある重みを増幅することです。
私たちの設計は、さまざまなモデルのマージシナリオにわたる広範な経験的実験を通じて攻撃成功率の改善につながる可能性があることを実証します。
さらに、私たちの方法は非常にステルスであり、検出して防御することが困難であることを示しています。
要約(オリジナル)
Model merging is an emerging technique that integrates multiple models fine-tuned on different tasks to create a versatile model that excels in multiple domains. This scheme, in the meantime, may open up backdoor attack opportunities where one single malicious model can jeopardize the integrity of the merged model. Existing works try to demonstrate the risk of such attacks by assuming substantial computational resources, focusing on cases where the attacker can fully fine-tune the pre-trained model. Such an assumption, however, may not be feasible given the increasing size of machine learning models. In practice where resources are limited and the attacker can only employ techniques like Low-Rank Adaptation (LoRA) to produce the malicious model, it remains unclear whether the attack can still work and pose threats. In this work, we first identify that the attack efficacy is significantly diminished when using LoRA for fine-tuning. Then, we propose LoBAM, a method that yields high attack success rate with minimal training resources. The key idea of LoBAM is to amplify the malicious weights in an intelligent way that effectively enhances the attack efficacy. We demonstrate that our design can lead to improved attack success rate through extensive empirical experiments across various model merging scenarios. Moreover, we show that our method is highly stealthy and is difficult to detect and defend against.
arxiv情報
著者 | Ming Yin,Jingyang Zhang,Jingwei Sun,Minghong Fang,Hai Li,Yiran Chen |
発行日 | 2025-05-30 16:45:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google