Adaptive Top-K in SGD for Communication-Efficient Distributed Learning

要約

勾配圧縮を使用した分散確率的勾配降下法 (SGD) は、分散学習を加速するための通信効率の高いソリューションとして人気があります。
勾配圧縮に一般的に使用される方法の 1 つは、モデルのトレーニング中に固定度で勾配をスパース化する Top-K スパース化です。
ただし、モデルのパフォーマンスやトレーニング速度の可能性を最大化するためにスパース化の程度を調整する適応的なアプローチが不足していました。
この論文では、SGD フレームワークにおける新しい適応型 Top-K を提案します。これにより、各勾配降下ステップのスパース化の度合いを適応させ、通信コストと収束誤差のバランスをとることで収束パフォーマンスを最適化できます。
まず、適応スパース化スキームと損失関数の収束誤差の上限が導出されます。
第二に、通信コストの制約の下で収束誤差を最小限に抑えるようにアルゴリズムが設計されています。
最後に、MNIST および CIFAR-10 データセットの数値結果は、SGD で提案されている適応 Top-K アルゴリズムが、誤差補正を考慮した後でも、最先端の方法と比較して大幅に優れた収束率を達成することを示しています。

要約(オリジナル)

Distributed stochastic gradient descent (SGD) with gradient compression has become a popular communication-efficient solution for accelerating distributed learning. One commonly used method for gradient compression is Top-K sparsification, which sparsifies the gradients by a fixed degree during model training. However, there has been a lack of an adaptive approach to adjust the sparsification degree to maximize the potential of the model’s performance or training speed. This paper proposes a novel adaptive Top-K in SGD framework that enables an adaptive degree of sparsification for each gradient descent step to optimize the convergence performance by balancing the trade-off between communication cost and convergence error. Firstly, an upper bound of convergence error is derived for the adaptive sparsification scheme and the loss function. Secondly, an algorithm is designed to minimize the convergence error under the communication cost constraints. Finally, numerical results on the MNIST and CIFAR-10 datasets demonstrate that the proposed adaptive Top-K algorithm in SGD achieves a significantly better convergence rate compared to state-of-the-art methods, even after considering error compensation.

arxiv情報

著者 Mengzhe Ruan,Guangfeng Yan,Yuanzhang Xiao,Linqi Song,Weitao Xu
発行日 2023-09-11 14:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC パーマリンク