SparDL: Distributed Deep Learning Training with Efficient Sparse Communication

要約

Top-k スパース化は、分散深層学習における通信量を削減するために最近広く使用されています。
ただし、Sparse Gradient Accumulation (SGA) のジレンマにより、top-k スパース化のパフォーマンスには依然として制限があります。
最近、SGA のジレンマに対処するためのいくつかの方法が提案されています。
残念ながら、最先端の方法にもいくつかの欠点があります。たとえば、非効率的な通信アルゴリズムに依存しており、余分な送信ステップが必要です。
既存の方法の制限を動機として、私たちは SparDL と呼ばれる新しい効率的なスパース通信フレームワークを提案します。
具体的には、SparDL は、効率的な Reduce-Scatter モデルに基づく Spar-Reduce-Scatter アルゴリズムを使用して、追加の通信操作を行わずに SGA ジレンマを処理します。
さらに、レイテンシーコストをさらに削減し、SparDL の効率を向上させるために、Spar-All-Gather アルゴリズムを提案します。
さらに、モデルトレーニングの高速収束を保証するためのグローバル残差収集アルゴリズムを提案します。
最後に、SparDL の優位性を検証するために大規模な実験が行われます。

要約(オリジナル)

Top-k sparsification has recently been widely used to reduce the communication volume in distributed deep learning. However, due to the Sparse Gradient Accumulation (SGA) dilemma, the performance of top-k sparsification still has limitations. Recently, a few methods have been put forward to handle the SGA dilemma. Regrettably, even the state-of-the-art method suffers from several drawbacks, e.g., it relies on an inefficient communication algorithm and requires extra transmission steps. Motivated by the limitations of existing methods, we propose a novel efficient sparse communication framework, called SparDL. Specifically, SparDL uses the Spar-Reduce-Scatter algorithm, which is based on an efficient Reduce-Scatter model, to handle the SGA dilemma without additional communication operations. Besides, to further reduce the latency cost and improve the efficiency of SparDL, we propose the Spar-All-Gather algorithm. Moreover, we propose the global residual collection algorithm to ensure fast convergence of model training. Finally, extensive experiments are conducted to validate the superiority of SparDL.

arxiv情報

著者 Minjun Zhao,Yichen Yin,Yuren Mao,Qing Liu,Lu Chen,Yunjun Gao
発行日 2024-02-23 15:35:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク