要約
Federated Learning (FL) と Large Language Model (LLM) の融合により、プライバシーを保護する自然言語処理の新時代が到来します。
ただし、LLM を微調整するための集中的なメモリ要件は、特に計算リソースが限られたエッジ デバイスに展開する場合に、重大な課題を引き起こします。
これを回避するために、フェデレーテッド設定内でのメモリ効率の高い 0 次最適化の新しい統合、つまり FedMeZO と呼ばれる相乗効果を検討します。
私たちの研究は、LLM のコンテキストで FedMeZO の理論的基礎を調査した最初のものであり、最適化動作に対する大きなパラメーター空間の影響、収束特性の確立、およびパーソナライズされたフェデレーションに情報を提供するための収束のための重要なパラメーターの特定に関する重要な質問に取り組んでいます。
戦略。
私たちの広範な経験的証拠は理論を裏付けており、FedMeZO は SGD などの従来の一次手法よりも高速に収束するだけでなく、トレーニング中の GPU メモリ使用量を推論中のものと同等のレベルまで大幅に削減できることを示しています。
さらに、理論的な洞察に基づいて構築され、クライアントごとの学習率をカスタマイズする、提案されたパーソナライズされた FL 戦略により、損失削減を効果的に加速できます。
私たちの研究が、LLM の連合微調整の理論的側面と実践的側面を橋渡しし、さらなる開発と研究を促進するのに役立つことを願っています。
要約(オリジナル)
The confluence of Federated Learning (FL) and Large Language Models (LLMs) is ushering in a new era in privacy-preserving natural language processing. However, the intensive memory requirements for fine-tuning LLMs pose significant challenges, especially when deploying on edge devices with limited computational resources. To circumvent this, we explore the novel integration of Memory-efficient Zeroth-Order Optimization within a federated setting, a synergy we denote as FedMeZO. Our study is the first to examine the theoretical underpinnings of FedMeZO in the context of LLMs, tackling key questions regarding the influence of large parameter spaces on optimization behavior, the establishment of convergence properties, and the identification of critical parameters for convergence to inform personalized federated strategies. Our extensive empirical evidence supports the theory, showing that FedMeZO not only converges faster than traditional first-order methods such as SGD but also significantly reduces GPU memory usage during training to levels comparable to those during inference. Moreover, the proposed personalized FL strategy that is built upon the theoretical insights to customize the client-wise learning rate can effectively accelerate loss reduction. We hope our work can help to bridge theoretical and practical aspects of federated fine-tuning for LLMs and facilitate further development and research.
arxiv情報
著者 | Zhenqing Ling,Daoyuan Chen,Liuyi Yao,Yaliang Li,Ying Shen |
発行日 | 2024-02-08 18:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google