要約
【タイトル】SparDL:効率的な疎通信を利用した分散深層学習トレーニング
【要約】
– 分散深層学習で通信量を減らすことが目的のTop-kスパース化は現在広く使われているが、Gradient Accumulation(GA)ジレンマのため、その性能は限られている。
– GAジレンマを扱うための複数の手法が提案されているが、以下の2つの欠点がある。
– 高い通信複雑性により、多くの余分な伝送を導入する。
– ワーカーの数が2の累乗でない場合に柔軟性が欠ける。
– これら2つの問題を解決するために、柔軟で効率的な疎通信フレームワークであるSparDLを提案する。 SparDLは、追加の通信操作なしにGAジレンマを解決するためにSpar-Reduce-Scatterアルゴリズムを使用し、ワーカーの数に柔軟に対応することができる。
– さらに、通信複雑性をさらに減らし、レイテンシと帯域幅コストの比率を調整するために、Spar-All-GatherアルゴリズムをSparDLの一部として提案している。
– 広範囲な実験により、SparDLの優越性が検証されている。
【要点】
– 分散深層学習で通信量を減らすためのTop-kスパース化は現在広く使われているが、GAジレンマのため、その性能は限られている。
– これまでの手法は高い通信複雑性やワーカー数に対する柔軟性の問題があるが、SparDLではSpar-Reduce-Scatterアルゴリズムを使用することで追加の通信操作なしにGAジレンマを解決でき、ワーカー数に柔軟に対応可能。
– さらに、Spar-All-Gatherアルゴリズムを導入することで通信複雑性をさらに減らし、レイテンシと帯域幅コストの比率を調整することができる。
– SparDLは広範囲に渡る実験で優越性が検証されている。
要約(オリジナル)
Top-$k$ sparsification has recently been widely used to reduce the communication volume in distributed deep learning; however, due to Gradient Accumulation (GA) dilemma, the performance of top-$k$ sparsification is still limited. Several methods have been proposed to handle the GA dilemma but have two drawbacks: (1) they are frustrated by the high communication complexity as they introduce a large amount of extra transmission; (2) they are not flexible for non-power-of-two numbers of workers. To solve these two problems, we propose a flexible and efficient sparse communication framework, dubbed SparDL. SparDL uses the Spar-Reduce-Scatter algorithm to solve the GA dilemma without additional communication operations and is flexible to any number of workers. Besides, to further reduce the communication complexity and adjust the proportion of latency and bandwidth cost in communication complexity, we propose the Spar-All-Gather algorithm as part of SparDL. Extensive experiments validate the superiority of SparDL.
arxiv情報
| 著者 | Minjun Zhao,Yichen Yin,Yuren Mao,Lu Chen,Yunjun Gao |
| 発行日 | 2023-04-03 06:15:50+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI