要約
大規模なディープ ニューラル ネットワーク (DNN)、特に大規模言語モデル (LLM) のトレーニングにおけるハードウェア不足を軽減するために、さまざまなコンピューティング クラスターまたは個々のデバイスにわたって地理的に分散された GPU を使用して DNN をトレーニングするために設計および実装された分散型トレーニング システム FusionLLM を紹介します。
分散型トレーニングは、システム設計と効率に関して次のような重大な課題に直面しています。1) リモート自動微分 (RAD) の必要性、2) 柔軟なモデル定義と異種ソフトウェアのサポート、3) 低リソース使用率またはストラグラー問題につながる異種ハードウェア、
4) ネットワーク通信が遅い。
これらの課題に対処するために、システム設計では、モデルを演算子の有向非巡回グラフ (OP-DAG) として表します。
DAG 内の各ノードは DNN 内の演算子を表し、エッジは演算子間のデータ依存関係を表します。
この設計に基づいて、1) ユーザーは低レベルの演算子の実装を気にせずに任意の DNN をカスタマイズできます。
2) よりきめ細かいサブタスクによるタスク スケジューリングを可能にし、より多くの最適化スペースを提供します。
3) DAG ランタイム エグゼキュータは、一貫した低レベル ML フレームワーク バージョンを必要とせずに RAD を実装できます。
システム効率を高めるために、ワークロード推定器を実装し、同様の帯域幅を持つデバイスをクラスタ化し、DAG を分割してスループットを向上させる OP-Fence スケジューラを設計します。
さらに、最も遅い通信リンクで中間のアクティベーションと勾配を適応的に圧縮する AdaTopK コンプレッサーを提案します。
システムとアルゴリズムの収束と効率を評価するために、8 Mbps ~ 10 Gbps のネットワークに接続された 48 個の GPU を使用して、3 つの現実世界のテストベッドで ResNet-101 と GPT-2 をトレーニングしました。
実験結果は、私たちのシステムと方法が、収束を確保しながらベースライン方法と比較して 1.45 ~ 9.39 倍の高速化を達成できることを示しています。
要約(オリジナル)
To alleviate hardware scarcity in training large deep neural networks (DNNs), particularly large language models (LLMs), we present FusionLLM, a decentralized training system designed and implemented for training DNNs using geo-distributed GPUs across different computing clusters or individual devices. Decentralized training faces significant challenges regarding system design and efficiency, including: 1) the need for remote automatic differentiation (RAD), 2) support for flexible model definitions and heterogeneous software, 3) heterogeneous hardware leading to low resource utilization or the straggler problem, and 4) slow network communication. To address these challenges, in the system design, we represent the model as a directed acyclic graph of operators (OP-DAG). Each node in the DAG represents the operator in the DNNs, while the edge represents the data dependency between operators. Based on this design, 1) users are allowed to customize any DNN without caring low-level operator implementation; 2) we enable the task scheduling with the more fine-grained sub-tasks, offering more optimization space; 3) a DAG runtime executor can implement RAD withour requiring the consistent low-level ML framework versions. To enhance system efficiency, we implement a workload estimator and design an OP-Fence scheduler to cluster devices with similar bandwidths together and partition the DAG to increase throughput. Additionally, we propose an AdaTopK compressor to adaptively compress intermediate activations and gradients at the slowest communication links. To evaluate the convergence and efficiency of our system and algorithms, we train ResNet-101 and GPT-2 on three real-world testbeds using 48 GPUs connected with 8 Mbps~10 Gbps networks. Experimental results demonstrate that our system and method can achieve 1.45 – 9.39x speedup compared to baseline methods while ensuring convergence.
arxiv情報
著者 | Zhenheng Tang,Xueze Kang,Yiming Yin,Xinglin Pan,Yuxin Wang,Xin He,Qiang Wang,Rongfei Zeng,Kaiyong Zhao,Shaohuai Shi,Amelie Chi Zhou,Bo Li,Bingsheng He,Xiaowen Chu |
発行日 | 2024-10-16 16:13:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google