Decentralized SGD and Average-direction SAM are Asymptotically Equivalent

要約

分散型確率的勾配降下法 (D-SGD) を使用すると、中央サーバーの制御なしで、大規模なデバイスで同時に共同学習を行うことができます。
しかし、既存の理論は、分散化は常に一般化を損なうと主張しています。
この論文では、従来の信念に挑戦し、分散学習を理解するためのまったく新しい視点を提示します。
D-SGD が、一般的な非凸の非 $\beta$-smooth 設定の下で、平均方向のシャープネスを意識した最小化 (SAM) アルゴリズムの損失関数を暗黙的に最小化することを証明します。
この驚くべき漸近的等価性は、本質的な正則化と最適化のトレードオフと分散化の 3 つの利点を明らかにします。(1) D-SGD には事後推定を改善するための自由な不確実性評価メカニズムが存在します。
(2) D-SGD は勾配平滑化効果を示します。
(3) D-SGD のシャープネス正則化効果は、合計バッチ サイズが増加しても減少しないため、大規模バッチ シナリオでは集中型 SGD (C-SGD) よりも D-SGD の潜在的な一般化利点が正当化されます。

要約(オリジナル)

Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios.

arxiv情報

著者 Tongtian Zhu,Fengxiang He,Kaixuan Chen,Mingli Song,Dacheng Tao
発行日 2023-07-10 15:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.DC, cs.LG, cs.SY, eess.SY, stat.ML パーマリンク