On the Convergence of Zeroth-Order Federated Tuning for Large Language Models

要約

Federated Learning (FL) と Large Language Model (LLM) の融合により、プライバシーを保護する自然言語処理の新時代が到来します。
ただし、LLM を微調整するための集中的なメモリ要件は、特に計算リソースが限られているクライアントに展開する場合に、重大な課題を引き起こします。
これを回避するために、フェデレーテッド設定内でのメモリ効率の高い 0 次最適化の新しい統合、つまり FedMeZO と呼ばれる相乗効果を検討します。
私たちの研究は、LLM のコンテキストで FedMeZO の理論的基礎を調査した最初のものであり、最適化動作に対する大きなパラメーター空間の影響、収束特性の確立、およびパーソナライズされたフェデレーションに情報を提供するための収束のための重要なパラメーターの特定に関する重要な質問に取り組んでいます。
戦略。
私たちの広範な経験的証拠は理論を裏付けており、FedMeZO は FedAvg などの従来の一次手法よりも高速に収束するだけでなく、トレーニング中の GPU メモリ使用量を推論中のものと同等のレベルまで大幅に削減できることを示しています。
さらに、理論的な洞察に基づいて構築され、クライアントごとの学習率をカスタマイズする、提案されたパーソナライズされた FL 戦略により、損失削減を効果的に加速できます。
私たちの研究が、LLM の連合微調整の理論的側面と実践的側面の橋渡しに役立ち、それによってこの分野のさらなる進歩と研究を刺激することを願っています。

要約(オリジナル)

The confluence of Federated Learning (FL) and Large Language Models (LLMs) is ushering in a new era in privacy-preserving natural language processing. However, the intensive memory requirements for fine-tuning LLMs pose significant challenges, especially when deploying on clients with limited computational resources. To circumvent this, we explore the novel integration of Memory-efficient Zeroth-Order Optimization within a federated setting, a synergy we term as FedMeZO. Our study is the first to examine the theoretical underpinnings of FedMeZO in the context of LLMs, tackling key questions regarding the influence of large parameter spaces on optimization behavior, the establishment of convergence properties, and the identification of critical parameters for convergence to inform personalized federated strategies. Our extensive empirical evidence supports the theory, showing that FedMeZO not only converges faster than traditional first-order methods such as FedAvg but also significantly reduces GPU memory usage during training to levels comparable to those during inference. Moreover, the proposed personalized FL strategy that is built upon the theoretical insights to customize the client-wise learning rate can effectively accelerate loss reduction. We hope our work can help to bridge theoretical and practical aspects of federated fine-tuning for LLMs, thereby stimulating further advancements and research in this area.

arxiv情報

著者 Zhenqing Ling,Daoyuan Chen,Liuyi Yao,Yaliang Li,Ying Shen
発行日 2024-06-17 16:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク