AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes

要約

Parameter Server や AllReduce などの多くの分散トレーニング手法が、ますます大規模化するデータと豊富な機能を活用するために提案されています。
ただし、リソースの競合とハードウェアの異質性により、分散トレーニングではストラグラーが頻繁に発生し、トレーニングの効率が大幅に妨げられます。
これまでの研究では、ストラグラーの一部に対処するだけであり、実際にはさまざまなストラグラーを適応的に解決できませんでした。
さらに、ストラグラーごとに多様なデータ割り当てとフォールト トレランス メカニズムが必要となるため、体系的なフレームワークを使用してすべてのストラグラーに対処することは困難です。
したがって、この論文では、ストラグラー問題を適応的に解決するための AntDT (Ant Distributed Training Framework) と呼ばれる統合分散トレーニング フレームワークを提案します。
まず、このフレームワークは、ステートフル ダイナミック データ シャーディング サービス、モニター、コントローラー、エージェントを含む 4 つのコンポーネントで構成されています。
これらのコンポーネントは連携してワークロードを効率的に分散し、フォールト トレランスを備えたさまざまな事前定義されたストラグラー軽減方法を提供することで、データ割り当てとフォールト処理の煩雑な詳細を隠します。
第 2 に、このフレームワークは高度な柔軟性を提供し、クラスターの特定の状況に基づいてストラグラー緩和ソリューションのカスタマイズを可能にします。
この柔軟性を活用して、Ant Group でさまざまな種類のストラグラーを解決するための実践例として、非専用クラスター用の AntDT-ND と専用クラスター用の AntDT-DD という 2 つのストラグラー緩和ソリューションを紹介します。
私たちの包括的な実験と産業展開統計によって正当化されるように、AntDT はトレーニング効率の点で他の SOTA 手法を 3 倍以上上回っています。
さらに、Alipay のホームページの推奨シナリオでは、AntDT を使用することで、ランキング モデルのトレーニング時間が 27.8 時間からわずか 5.4 時間に短縮されました。

要約(オリジナル)

Many distributed training techniques like Parameter Server and AllReduce have been proposed to take advantage of the increasingly large data and rich features. However, stragglers frequently occur in distributed training due to resource contention and hardware heterogeneity, which significantly hampers the training efficiency. Previous works only address part of the stragglers and could not adaptively solve various stragglers in practice. Additionally, it is challenging to use a systematic framework to address all stragglers because different stragglers require diverse data allocation and fault-tolerance mechanisms. Therefore, this paper proposes a unified distributed training framework called AntDT (Ant Distributed Training Framework) to adaptively solve the straggler problems. Firstly, the framework consists of four components, including the Stateful Dynamic Data Sharding service, Monitor, Controller, and Agent. These components work collaboratively to efficiently distribute workloads and provide a range of pre-defined straggler mitigation methods with fault tolerance, thereby hiding messy details of data allocation and fault handling. Secondly, the framework provides a high degree of flexibility, allowing for the customization of straggler mitigation solutions based on the specific circumstances of the cluster. Leveraging this flexibility, we introduce two straggler mitigation solutions, namely AntDT-ND for non-dedicated clusters and AntDT-DD for dedicated clusters, as practical examples to resolve various types of stragglers at Ant Group. Justified by our comprehensive experiments and industrial deployment statistics, AntDT outperforms other SOTA methods more than 3x in terms of training efficiency. Additionally, in Alipay’s homepage recommendation scenario, using AntDT reduces the training duration of the ranking model from 27.8 hours to just 5.4 hours.

arxiv情報

著者 Youshao Xiao,Lin Ju,Zhenglei Zhou,Siyuan Li,Zhaoxin Huan,Dalong Zhang,Rujie Jiang,Lin Wang,Xiaolu Zhang,Lei Liang,Jun Zhou
発行日 2024-04-15 11:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク