The Future of Large Language Model Pre-training is Federated

要約

生成事前トレーニングされた大規模言語モデル (LLM) は、前例のない量のデータをトレーニングしたおかげで、幅広いタスクにわたって優れたパフォーマンスを実証しました。
確立されたスケーリングの法則が示すように、LLM の将来のパフォーマンス向上は、事前トレーニングに利用できるコンピューティングとデータ ソースの量に依存します。
フェデレーテッド ラーニング (FL) には、現在の LLM 実践のデータセンター中心のトレーニング方法論では十分に活用されていない、地球上のデータと計算リソースの大部分を解放する可能性があります。
私たちの研究は、LLM を訓練するために機関を超えた大規模なコラボレーションを可能にする、堅牢かつ柔軟で再現可能な FL アプローチを提示しています。
私たちは、LLM 事前トレーニング用のこの新しいトレーニング パラダイムの調査と開発を可能にする、Photon と呼ばれるスケーラブルな導入システムを提案します。
私たちは、数十億のパラメーターを使用して LLM を事前トレーニングするために、プライベート データ ソースや計算リソースと連携することに関心のある組織が Photon を使用できることを示します。
このパラダイムは、一元化されたパフォーマンスと同等か、場合によってはそれを上回るパフォーマンスを実現しながら、より多くの計算リソースとデータ リソースを動員します。
さらに、モデル サイズに応じたフェデレーテッド トレーニング スケールの有効性を示し、限られたリソースを使用して 10 億規模のフェデレーテッド LLM をトレーニングするためのアプローチを示します。
最後に、LLM トレーニングがフェデレーテッド統計とハードウェアの異質性という従来の課題に対して非常に回復力があることを示します。
さらに、部分的な参加に対して収束が堅牢であり、計算効率の高い共同トレーニングへの道が開かれることを示します。
Photon は、コンピューティングが豊富なアクターだけに舞台を委ねるのではなく、データが豊富なアクターが LLM の事前トレーニングの主人公になるのを支援します。

要約(オリジナル)

Generative pre-trained large language models (LLMs) have demonstrated impressive performance over a wide range of tasks, thanks to the unprecedented amount of data they have been trained on. As established scaling laws indicate, LLMs’ future performance improvement depends on the amount of computing and data sources they can leverage for pre-training. Federated learning (FL) has the potential to unleash the majority of the planet’s data and computational resources, which are underutilized by the data-center-focused training methodology of current LLM practice. Our work presents a robust, flexible, reproducible FL approach that enables large-scale collaboration across institutions to train LLMs. We propose a scalable deployment system called Photon to enable the investigation and development of this new training paradigm for LLM pre-training. We show that Photon can be used by organizations interested in collaborating with their private data sources and computational resources for pre-training LLMs with billions of parameters. This paradigm would mobilize more computational and data resources while matching or potentially exceeding centralized performance. We further show the effectiveness of the federated training scales with model size and present our approach for training a billion-scale federated LLM using limited resources. Finally, we show that LLM training is highly resilient to the classical challenges of federated statistical and hardware heterogeneity. Furthermore, we show that convergence is robust to partial participation, opening the avenue for compute-efficient collaborative training. Photon will help data-rich actors to become the protagonists of LLMs pre-training instead of leaving the stage to compute-rich actors alone.

arxiv情報

著者 Lorenzo Sani,Alex Iacob,Zeyu Cao,Bill Marino,Yan Gao,Tomas Paulik,Wanru Zhao,William F. Shen,Preslav Aleksandrov,Xinchi Qiu,Nicholas D. Lane
発行日 2024-07-19 15:16:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク