Demystifying Why Local Aggregation Helps: Convergence Analysis of Hierarchical SGD

要約

階層型 SGD (H-SGD) は、マルチレベル通信ネットワーク用の新しい分散型 SGD アルゴリズムとして登場しました。
H-SGD では、各グローバル集計の前に、ワーカーは更新されたローカル モデルを集計のためにローカル サーバーに送信します。
最近の研究努力にも関わらず、ローカル集約がグローバル コンバージェンスに及ぼす影響については、まだ理論的な理解が不足しています。
この研究では、まず「上向き」と「下向き」の分岐という新しい概念を導入します。
次に、これを使用して新しい解析を実行し、非 IID データ、非凸目的関数、および確率的勾配を使用した 2 レベル H-SGD の最悪の収束上限を取得します。
この結果をランダム グループ化の場合に拡張すると、この H-SGD の収束上限が 2 つの単一レベルのローカル SGD 設定の上限の間にあり、ローカル反復回数がローカル更新期間とグローバル更新期間に等しいことがわかります。
それぞれH-SGDで。
これを「サンドイッチ動作」と呼びます。
さらに、「上向き」と「下向き」の発散に基づいた分析アプローチを拡張して、「サンドイッチ挙動」が依然として維持される 2 レベル以上の H-SGD の一般的なケースの収束を研究します。
私たちの理論的結果は、ローカル アグリゲーションが H-SGD のコンバージェンスの向上に有益である理由について重要な洞察を提供します。

要約(オリジナル)

Hierarchical SGD (H-SGD) has emerged as a new distributed SGD algorithm for multi-level communication networks. In H-SGD, before each global aggregation, workers send their updated local models to local servers for aggregations. Despite recent research efforts, the effect of local aggregation on global convergence still lacks theoretical understanding. In this work, we first introduce a new notion of ‘upward’ and ‘downward’ divergences. We then use it to conduct a novel analysis to obtain a worst-case convergence upper bound for two-level H-SGD with non-IID data, non-convex objective function, and stochastic gradient. By extending this result to the case with random grouping, we observe that this convergence upper bound of H-SGD is between the upper bounds of two single-level local SGD settings, with the number of local iterations equal to the local and global update periods in H-SGD, respectively. We refer to this as the ‘sandwich behavior’. Furthermore, we extend our analytical approach based on ‘upward’ and ‘downward’ divergences to study the convergence for the general case of H-SGD with more than two levels, where the ‘sandwich behavior’ still holds. Our theoretical results provide key insights of why local aggregation can be beneficial in improving the convergence of H-SGD.

arxiv情報

著者 Jiayi Wang,Shiqiang Wang,Rong-Rong Chen,Mingyue Ji
発行日 2024-04-11 17:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.IT, cs.LG, math.IT, math.OC パーマリンク