要約
過去数十年にわたり、確率的勾配降下法 (SGD) は機械学習コミュニティによって集中的に研究されてきました。
SGD の多用途性と優れたパフォーマンスにもかかわらず、SGD による大規模モデルの最適化は依然として時間のかかる作業です。
トレーニング時間を短縮するために、トレーニング プロセスを複数のデバイスに分散するのが一般的です。
最近、非同期 SGD (ASGD) の収束は常にミニバッチ SGD よりも高速であることが示されました。
ただし、これらの理論的限界の改善にもかかわらず、ほとんどの ASGD 収束率証明は依然として集中パラメータ サーバーに依存しており、多くの分散プロセスにわたって勾配計算をスケールアウトするときにボトルネックになる傾向があります。
この論文では、ノード間の部分的な同期や制限的なネットワーク トポロジを必要としない、分散型非同期 SGD (DASGD) の新しい収束率分析を紹介します。
具体的には、 $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(QS_{avg}\epsilon^{-3/2}) + \mathcal{O の範囲を提供します。
}(S_{avg}\epsilon^{-1})$ は DASGD の収束率です。$S_{avg}$ はモデル間の平均の古さ、$Q$ は勾配のノルムを制限する定数です。
$\epsilon$ は、範囲内で許容される (小さい) エラーです。
さらに、勾配が制限されていない場合、DASGD の収束率は $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(\sqrt{\hat{S}_) であることが証明されます。
{avg}\hat{S}_{max}}\epsilon^{-1})$、$\hat{S}_{max}$ と $\hat{S}_{avg}$ はルースを表します
それぞれ、平均および最大の古さのバージョン。
私たちの収束証明は、固定ステップサイズと任意の非凸、均一、L 滑らかな目的関数に対して当てはまります。
私たちは、研究者や開発者の広範なコミュニティによる DASGD の採用に、私たちの結果が高い関連性を持つことを期待しています。
要約(オリジナル)
Over the last decades, Stochastic Gradient Descent (SGD) has been intensively studied by the Machine Learning community. Despite its versatility and excellent performance, the optimization of large models via SGD still is a time-consuming task. To reduce training time, it is common to distribute the training process across multiple devices. Recently, it has been shown that the convergence of asynchronous SGD (ASGD) will always be faster than mini-batch SGD. However, despite these improvements in the theoretical bounds, most ASGD convergence-rate proofs still rely on a centralized parameter server, which is prone to become a bottleneck when scaling out the gradient computations across many distributed processes. In this paper, we present a novel convergence-rate analysis for decentralized and asynchronous SGD (DASGD) which does not require partial synchronization among nodes nor restrictive network topologies. Specifically, we provide a bound of $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(QS_{avg}\epsilon^{-3/2}) + \mathcal{O}(S_{avg}\epsilon^{-1})$ for the convergence rate of DASGD, where $S_{avg}$ is the average staleness between models, $Q$ is a constant that bounds the norm of the gradients, and $\epsilon$ is a (small) error that is allowed within the bound. Furthermore, when gradients are not bounded, we prove the convergence rate of DASGD to be $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(\sqrt{\hat{S}_{avg}\hat{S}_{max}}\epsilon^{-1})$, with $\hat{S}_{max}$ and $\hat{S}_{avg}$ representing a loose version of the average and maximum staleness, respectively. Our convergence proof holds for a fixed stepsize and any non-convex, homogeneous, and L-smooth objective function. We anticipate that our results will be of high relevance for the adoption of DASGD by a broad community of researchers and developers.
arxiv情報
著者 | Mauro DL Tosi,Martin Theobald |
発行日 | 2023-09-07 14:50:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google