Decentralized Training of Foundation Models in Heterogeneous Environments

要約

GPT-3 や PaLM などの基礎モデルのトレーニングは非常に高価になる可能性があり、多くの場合、何万もの GPU が数か月間継続的に実行される必要があります。
これらのモデルは通常、高速で均質な相互接続を特徴とし、データ並列処理とモデル/パイプライン並列処理の両方をサポートする慎重に設計されたソフトウェア システムを使用して、特殊なクラスターでトレーニングされます。
このような専用クラスターは高価であり、入手が困難な場合があります。
代わりに、はるかに大量の分散型、異種混合、低帯域幅の相互接続されたコンピューティングを活用できるでしょうか?
異種混合の分散設定を調査したこれまでの研究では、純粋にデータ並列方式でトレーニングできる比較的小規模なモデルに焦点を当てていました。
Megatron などのモデル並列基盤モデル トレーニングの最先端のスキームでは、同種のデータ センター設定のみが考慮されます。
この論文では、異種ネットワーク上の分散型レジームでモデル並列処理を使用して大規模な基盤モデルをトレーニングする最初の研究を紹介します。
私たちの主な技術的貢献は、基礎モデルのトレーニングにおけるさまざまな計算「タスクレット」を、低速の異種ネットワークで接続された分散型 GPU デバイスのグループに割り当てるスケジューリング アルゴリズムです。
私たちは正式なコストモデルを提供し、最適な割り当て戦略を見つけるための効率的な進化的アルゴリズムをさらに提案します。
私たちは、現実世界のネットワーク測定を使用してシミュレートされた、地理的に分散したデバイス上で学習するためのさまざまなシナリオを表す広範な実験を実施しています。
最も極端なケースでは、3 大陸にまたがる 8 つの異なる都市にわたって、私たちのアプローチは以前の最先端のトレーニング システム (Megatron) よりも 4.8 倍高速です。

要約(オリジナル)

Training foundation models, such as GPT-3 and PaLM, can be extremely expensive, often involving tens of thousands of GPUs running continuously for months. These models are typically trained in specialized clusters featuring fast, homogeneous interconnects and using carefully designed software systems that support both data parallelism and model/pipeline parallelism. Such dedicated clusters can be costly and difficult to obtain. Can we instead leverage the much greater amount of decentralized, heterogeneous, and lower-bandwidth interconnected compute? Previous works examining the heterogeneous, decentralized setting focus on relatively small models that can be trained in a purely data parallel manner. State-of-the-art schemes for model parallel foundation model training, such as Megatron, only consider the homogeneous data center setting. In this paper, we present the first study of training large foundation models with model parallelism in a decentralized regime over a heterogeneous network. Our key technical contribution is a scheduling algorithm that allocates different computational ‘tasklets’ in the training of foundation models to a group of decentralized GPU devices connected by a slow heterogeneous network. We provide a formal cost model and further propose an efficient evolutionary algorithm to find the optimal allocation strategy. We conduct extensive experiments that represent different scenarios for learning over geo-distributed devices simulated using real-world network measurements. In the most extreme case, across 8 different cities spanning 3 continents, our approach is 4.8X faster than prior state-of-the-art training systems (Megatron).

arxiv情報

著者 Binhang Yuan,Yongjun He,Jared Quincy Davis,Tianyi Zhang,Tri Dao,Beidi Chen,Percy Liang,Christopher Re,Ce Zhang
発行日 2023-06-21 13:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク