A Bias-Correction Decentralized Stochastic Gradient Algorithm with Momentum Acceleration

要約

分散確率的最適化アルゴリズムは、大規模なデータセットを同時に処理し、モデルトレーニングを大幅に加速できます。
ただし、それらの有効性は、分散ネットワークとデータの不均一性のスパースによってしばしば妨げられます。
この論文では、運動量(EDM)と呼ばれる運動量加速分散確率勾配アルゴリズムを提案します。これは、データの不均一性からのバイアスを軽減し、収束率を高めるために一般的に使用される運動量技術を組み込みます。
私たちの理論分析は、EDMアルゴリズムが最適な解の近傍にサブリーニアリングに収束することを示しています。その半径は、非凸の対物性関数に適用される場合、データの不均一性に関係なく、その半径です。
強い凸性よりも弱い仮定であるpolyak-lojasiewicz状態では、ターゲット領域に直線的に収束します。
複雑な分散パラメーター更新構造の運動量を処理するために採用された分析手法は、十分にタイトな収束上限をもたらし、他の運動量ベースの分散アルゴリズムの理論分析のための新しい視点を提供します。

要約(オリジナル)

Distributed stochastic optimization algorithms can simultaneously process large-scale datasets, significantly accelerating model training. However, their effectiveness is often hindered by the sparsity of distributed networks and data heterogeneity. In this paper, we propose a momentum-accelerated distributed stochastic gradient algorithm, termed Exact-Diffusion with Momentum (EDM), which mitigates the bias from data heterogeneity and incorporates momentum techniques commonly used in deep learning to enhance convergence rate. Our theoretical analysis demonstrates that the EDM algorithm converges sub-linearly to the neighborhood of the optimal solution, the radius of which is irrespective of data heterogeneity, when applied to non-convex objective functions; under the Polyak-Lojasiewicz condition, which is a weaker assumption than strong convexity, it converges linearly to the target region. Our analysis techniques employed to handle momentum in complex distributed parameter update structures yield a sufficiently tight convergence upper bound, offering a new perspective for the theoretical analysis of other momentum-based distributed algorithms.

arxiv情報

著者 Yuchen Hu,Xi Chen,Weidong Liu,Xiaojun Mao
発行日 2025-02-13 16:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC, stat.ML パーマリンク