A Federated Splitting Framework for LLMs: Security, Efficiency, and Adaptability

要約

プライベートデータは通常、パブリックデータよりも高品質であり、LLMを改善する大きな可能性を提供します。
ただし、データサイロ全体に散在する分布とLLMSの高い計算需要により、フェデレーション環境での展開が制限されます。
これに対処するために、トランスベースの分割学習モデルが出現し、ほとんどのモデルパラメーターをサーバーにオフロードしながら、クライアントに埋め込み層と出力層のみを保持してプライバシーを確​​保します。
ただし、セキュリティ、効率性、適応性において依然として重要な課題に直面しています。1)埋め込み勾配は攻撃に対して脆弱であり、プライベートデータのリバースエンジニアリングにつながります。
2)LLMSの自己回帰的性質は、フェデレートスプリットラーニングが連続的に訓練および推測のみを行い、高い通信オーバーヘッドを引き起こすことを意味します。
3)固定されたパーティションポイントは、ダウンストリームタスクへの適応性を欠いています。
この論文では、LLAMA2に基づいた安全で効率的で適応的なフェデレートスプリットフレームワークであるFl-Llamaを紹介します。
まず、ローカルクライアントにいくつかの入出力ブロックと出力ブロックを配置し、ガウスノイズをフォワードパスの隠された状態に注入し、安全なエンドツーエンドの伝播を可能にします。
第二に、クライアントバッチとサーバー監督の戦略を採用して、並列トレーニングを実現し、注意マスク圧縮とKVキャッシュメカニズムを使用して推論を加速し、通信コストを効果的に削減します。
第三に、ユーザーは、特定のタスク要件とハードウェアの制限に基づいて、入力/出力ブロックのパーティションポイントを動的に調整できます。
NLU、要約、および会話のQAタスクに関する実験では、FL-LALAが集中化されたLLAMA2に匹敵するパフォーマンスを維持し、最大2倍の列車のスピードアップと8倍の推論スピードアップを達成することが示されています。
プライバシー攻撃とさまざまなパーティションポイントのさらなる分析は、セキュリティと適応性におけるFL-llamaの有効性も示しています。

要約(オリジナル)

Private data is typically larger and of higher quality than public data, offering great potential to improve LLM. However, its scattered distribution across data silos and the high computational demands of LLMs limit their deployment in federated environments. To address this, the transformer-based split learning model has emerged, offloading most model parameters to the server while retaining only the embedding and output layers on clients to ensure privacy. However, it still faces significant challenges in security, efficiency, and adaptability: 1) embedding gradients are vulnerable to attacks, leading to reverse engineering of private data; 2) the autoregressive nature of LLMs means that federated split learning can only train and infer sequentially, causing high communication overhead; 3) fixed partition points lack adaptability to downstream tasks. In this paper, we introduce FL-LLaMA, a secure, efficient, and adaptive federated split framework based on LLaMA2. First, we place some input and output blocks on the local client and inject Gaussian noise into forward-pass hidden states, enabling secure end-to-end propagation. Second, we employ client-batch and server-hierarchical strategies to achieve parallel training, along with attention-mask compression and KV cache mechanisms to accelerate inference, reducing communication costs effectively. Third, we allow users to dynamically adjust the partition points for input/output blocks based on specific task requirements and hardware limitations. Experiments on NLU, summarization and conversational QA tasks show that FL-LLaMA maintains performance comparable to centralized LLaMA2, and achieves up to 2x train speedups and 8x inference speedups. Further analysis of privacy attacks and different partition points also demonstrates the effectiveness of FL-LLaMA in security and adaptability.

arxiv情報

著者 Zishuai Zhang,Hainan Zhang,Jiaying Zheng,Ziwei Wang,Yongxin Tong,Jin Dong,Zhiming Zheng
発行日 2025-05-21 15:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC パーマリンク