CELLM: An Efficient Communication in Large Language Models Training for Federated Learning

要約

Federated Learning (FL) は、クライアント デバイスがデータを集約することなく共同してモデルをトレーニングする最近のモデル トレーニング パラダイムです。
重要なのは、データを直接通信して集約する従来の機械学習 (ML) トレーニングとは対照的に、このスキームはモデルの重みの更新を中央サーバーに通信するだけなので、潜在的なプライバシーとセキュリティの利点をユーザーに提供します。
ただし、クライアントのローカル データ分布が異なる可能性があるため、FL トレーニングには統計的な不均一性が生じます。
大規模言語モデル (LLM) は、膨大な量のノイズを含むデータを学習できることが一貫して示されているため、この異質性の問題に対する潜在的な解決策を提供します。
LLM は、非 I.I.D という一貫した問題を解決するための有望な開発ですが、
フェデレーション設定のクライアントは、フロリダ州の他の 2 つのボトルネック、つまりローカル コンピューティングの制限と高価な通信を悪化させます。
この論文は、フロリダ州の LLM のための効率的なトレーニング方法を開発することを目的としています。
この目的を達成するために、私たちは効率的なトレーニングを可能にする 2 つの重要なテクニックを採用しています。
まず、低ランク適応 (LoRA) を使用して、ローカル モデル トレーニングの計算負荷を軽減します。
2 番目に、コミュニケーション コストを大幅に削減するために、トレーニング全体を通して更新情報をまばらに伝えます。
総合すると、私たちの方法は、より高い実用性を実現しながら、通信コストをバニラ LoRA ベースラインと比べて最大 10 倍、より複雑でスパースな LoRA ベースラインと比べて最大 5 倍削減します。
スパース性を慎重に適用し、フェデレーテッド LLM トレーニングに効果的なランクとスパース性の構成を選択することの重要性を強調します。

要約(オリジナル)

Federated Learning (FL) is a recent model training paradigm in which client devices collaboratively train a model without ever aggregating their data. Crucially, this scheme offers users potential privacy and security benefits by only ever communicating updates to the model weights to a central server as opposed to traditional machine learning (ML) training which directly communicates and aggregates data. However, FL training suffers from statistical heterogeneity as clients may have differing local data distributions. Large language models (LLMs) offer a potential solution to this issue of heterogeneity given that they have consistently been shown to be able to learn on vast amounts of noisy data. While LLMs are a promising development for resolving the consistent issue of non-I.I.D. Clients in federated settings exacerbate two other bottlenecks in FL: limited local computing and expensive communication. This thesis aims to develop efficient training methods for LLMs in FL. To this end, we employ two critical techniques in enabling efficient training. First, we use low-rank adaptation (LoRA) to reduce the computational load of local model training. Second, we communicate sparse updates throughout training to significantly cut down on communication costs. Taken together, our method reduces communication costs by up to 10x over vanilla LoRA and up to 5x over more complex sparse LoRA baselines while achieving greater utility. We emphasize the importance of carefully applying sparsity and picking effective rank and sparsity configurations for federated LLM training.

arxiv情報

著者 Raja Vavekanand,Kira Sam
発行日 2024-08-20 13:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク