要約
コミュニケーションのボトルネックは、大規模な分散型ディープラーニングにおいて重大な問題となっています。
この作業では、勾配圧縮機としてランダムブロックワイズスパース化を使用した分散SGDを研究します。これは、リングオールリデュースと互換性があり、計算効率が高いですが、パフォーマンスが低下します。
この重要な問題に取り組むために、通信効率の高い分散SGDを新しい側面、つまり分散と勾配の2次モーメントの間のトレードオフから改善します。
この動機で、新しいデタッチドエラーフィードバック(DEF)アルゴリズムを提案します。これは、非凸問題のエラーフィードバックよりも優れた収束限界を示します。
また、トレーニングの初期段階でDEFの一般化を加速するDEF-Aを提案します。これは、DEFよりも一般化の範囲が優れていることを示しています。
さらに、通信効率の高い分散SGDと反復平均化(SGD-IA)を使用したSGDの接続を初めて確立します。
広範な深層学習実験は、さまざまな設定の下で提案された方法の有意な経験的改善を示しています。
要約(オリジナル)
The communication bottleneck has been a critical problem in large-scale distributed deep learning. In this work, we study distributed SGD with random block-wise sparsification as the gradient compressor, which is ring-allreduce compatible and highly computation-efficient but leads to inferior performance. To tackle this important issue, we improve the communication-efficient distributed SGD from a novel aspect, that is, the trade-off between the variance and second moment of the gradient. With this motivation, we propose a new detached error feedback (DEF) algorithm, which shows better convergence bound than error feedback for non-convex problems. We also propose DEF-A to accelerate the generalization of DEF at the early stages of the training, which shows better generalization bounds than DEF. Furthermore, we establish the connection between communication-efficient distributed SGD and SGD with iterate averaging (SGD-IA) for the first time. Extensive deep learning experiments show significant empirical improvement of the proposed methods under various settings.
arxiv情報
著者 | An Xu,Heng Huang |
発行日 | 2022-06-13 13:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google