Save It All: Enabling Full Parameter Tuning for Federated Large Language Models via Cycle Block Gradient Descent

要約

大規模言語モデル (LLM) の出現により、深層学習パラダイムに革命が起こり、幅広いタスクにわたって素晴らしい結果が得られました。
ただし、フェデレーテッド ラーニング (FL) フレームワーク内での LLM の事前トレーニングや微調整には、かなりの計算リソースとメモリ リソースの需要、サーバーとクライアント間の通信ボトルネックなど、大きな課題が生じます。
既存のソリューションは、モデル全体がトレーニングのために交換されるという非現実的な仮定を立てるか、集中学習によるパラメーター効果の高い微調整手法を適用して FL で LLM をトレーニングします。これは、検索部分空間が限られているため、トレーニングまたは微調整段階でパフォーマンスが低下する傾向があります。
パラメータ更新の様子。
この論文では、リソース消費を最小限に抑えながら、フロリダ州で LLM を効率的にトレーニングおよび微調整するための新しい方法を紹介します。
FedCyBGD と呼ばれる私たちのアプローチは、サイクル ブロック勾配降下法を利用してモデルを定期的に更新します。
特に、モデルのダウンロード コストをさらに削減することを目的として、FedCyBGD の圧縮スキームを設計します。
選択したブロックの更新とアップロードのみを使用して FL で完全なパラメーター トレーニングを行うことができるため、通信、計算、メモリのコストが削減されます。
私たちのメソッドは、関連コストを大幅に削減しながら、FL LLM トレーニングの最先端のパフォーマンスを実現します。
コードはここで提供されます。

要約(オリジナル)

The advent of large language models (LLMs) has revolutionized the deep learning paradigm, yielding impressive results across a wide array of tasks. However, the pre-training or fine-tuning of LLMs within a federated learning (FL) framework poses substantial challenges, including considerable computational and memory resource demands, as well as communication bottlenecks between servers and clients. Existing solutions either make the unrealistic assumption that the entire model is exchanged for training, or apply parameter-effective fine-tuning methods from centralized learning to train LLMs in FL which tend to underperform during training or fine-tuning stages due to the limited search subspace of parameter updating. In this paper, we introduce a novel method for the efficient training and fine-tuning of LLMs in FL, with minimal resource consumption. Our approach, termed FedCyBGD, utilizes Cycle Block Gradient Descent to periodically update the model. In particular, we design a compression scheme for FedCyBGD, aiming to further decrease the model download cost. It enables full parameter training in FL with only selected block updates and uploads, thereby reducing communication, computation, and memory costs. Our method achieves state-of-the-art performance for FL LLM training, while significantly reducing associated costs. Codes are provided here.

arxiv情報

著者 Lin Wang,Zhichao Wang,Xiaoying Tang
発行日 2024-07-19 13:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク