PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning

要約

Federated Parameter-Efficient Fine-Tuning (FedPEFT) は、Federated Learning (FL) 設定でプライバシーを保護し、事前トレーニング済み言語モデル (PLM) を効率的に適応させるための有望なパラダイムとして浮上しています。
データを分散化してローカル デバイス上でモデルをトレーニングすることで、データのプライバシーを保護し、生データがユーザーのデバイスから流出することがないようにします。
さらに、LoRA などの PEFT 手法を統合すると、モデル全体を微調整する場合と比較してトレーニング可能なパラメーターの数が大幅に減少するため、通信コストと計算オーバーヘッドが最小限に抑えられます。
その可能性にもかかわらず、FedPEFT のセキュリティへの影響はまだ十分に調査されていません。
このペーパーでは、PEFT-as-an- Attack (PaaA) と呼ばれる、FedPEFT に対する新たなセキュリティ脅威を紹介します。これは、PLM の安全調整を回避し、悪意のあるプロンプトに応じて有害なコンテンツを生成する攻撃ベクトルとして PEFT がどのように悪用されるかを明らかにします。
PaaA の評価では、トレーニング可能として設定されたモデルのパラメーターが 1% 未満で、悪意を持って動作するクライアントの一部が存在する場合、この攻撃は LoRA などの代表的な PEFT 手法を使用して約 80% の攻撃成功率を達成することが明らかになりました。
この脅威を軽減するために、私たちはロバスト アグリゲーション スキーム (RAS) やポスト PEFT 安全性調整 (PPSA) などの潜在的な防御戦略をさらに調査します。
しかし、私たちの実証分析は、これらの防御の限界を浮き彫りにしています。つまり、DnC や ClippedClustering などの最も先進的な RAS でさえ、非常に異質なデータ分布のシナリオでは PaaA から防御するのに苦労しています。
同様に、PPSA は攻撃の成功率を 10% 未満に下げることができますが、ターゲット タスクにおけるモデルの精度を大幅に低下させます。
私たちの結果は、セキュリティの確保と FedPEFT パラダイムのパフォーマンスの維持を同時に実現する、より効果的な防御メカニズムが緊急に必要であることを強調しています。

要約(オリジナル)

Federated Parameter-Efficient Fine-Tuning (FedPEFT) has emerged as a promising paradigm for privacy-preserving and efficient adaptation of Pre-trained Language Models (PLMs) in Federated Learning (FL) settings. It preserves data privacy by keeping the data decentralized and training the model on local devices, ensuring that raw data never leaves the user’s device. Moreover, the integration of PEFT methods such as LoRA significantly reduces the number of trainable parameters compared to fine-tuning the entire model, thereby minimizing communication costs and computational overhead. Despite its potential, the security implications of FedPEFT remain underexplored. This paper introduces a novel security threat to FedPEFT, termed PEFT-as-an-Attack (PaaA), which exposes how PEFT can be exploited as an attack vector to circumvent PLMs’ safety alignment and generate harmful content in response to malicious prompts. Our evaluation of PaaA reveals that with less than 1% of the model’s parameters set as trainable, and a small subset of clients acting maliciously, the attack achieves an approximate 80% attack success rate using representative PEFT methods such as LoRA. To mitigate this threat, we further investigate potential defense strategies, including Robust Aggregation Schemes (RASs) and Post-PEFT Safety Alignment (PPSA). However, our empirical analysis highlights the limitations of these defenses, i.e., even the most advanced RASs, such as DnC and ClippedClustering, struggle to defend against PaaA in scenarios with highly heterogeneous data distributions. Similarly, while PPSA can reduce attack success rates to below 10%, it severely degrades the model’s accuracy on the target task. Our results underscore the urgent need for more effective defense mechanisms that simultaneously ensure security and maintain the performance of the FedPEFT paradigm.

arxiv情報

著者 Shenghui Li,Edith C. -H. Ngai,Fanghua Ye,Thiemo Voigt
発行日 2024-12-19 14:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク