AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms

要約

私たちは、各ワーカーが独自の計算速度と通信速度、およびデータ分散を持つ異種環境で分散 SGD の非同期型アルゴリズムを分析します。
これらのアルゴリズムでは、ワーカーは、履歴のある反復でローカル データに関連付けられている可能性のある古い確率的勾配を計算し、他のワーカーと同期せずにそれらの勾配をサーバーに返します。
不均一領域における非凸滑らか関数の統一収束理論を提示します。
提案された分析は、純粋な非同期 SGD とそのさまざまな変更の収束を提供します。
さらに、私たちの理論は、何が収束率に影響するのか、そして非同期アルゴリズムのパフォーマンスを向上させるために何ができるのかを説明します。
特に、ワ​​ーカー シャッフルに基づく新しい非同期メソッドを紹介します。
分析の副産物として、ランダムな再シャッフルを伴う SGD や 1 回シャッフルするミニバッチ SGD などの勾配型アルゴリズムの収束保証も示します。
導出されたレートは、これらのアルゴリズムの最もよく知られている結果と一致しており、私たちのアプローチの厳密さを強調しています。
最後に、私たちの数値評価は理論的発見を裏付け、私たちの方法の優れた実際的なパフォーマンスを示しています。

要約(オリジナル)

We analyze asynchronous-type algorithms for distributed SGD in the heterogeneous setting, where each worker has its own computation and communication speeds, as well as data distribution. In these algorithms, workers compute possibly stale and stochastic gradients associated with their local data at some iteration back in history and then return those gradients to the server without synchronizing with other workers. We present a unified convergence theory for non-convex smooth functions in the heterogeneous regime. The proposed analysis provides convergence for pure asynchronous SGD and its various modifications. Moreover, our theory explains what affects the convergence rate and what can be done to improve the performance of asynchronous algorithms. In particular, we introduce a novel asynchronous method based on worker shuffling. As a by-product of our analysis, we also demonstrate convergence guarantees for gradient-type algorithms such as SGD with random reshuffling and shuffle-once mini-batch SGD. The derived rates match the best-known results for those algorithms, highlighting the tightness of our approach. Finally, our numerical evaluations support theoretical findings and show the good practical performance of our method.

arxiv情報

著者 Rustem Islamov,Mher Safaryan,Dan Alistarh
発行日 2023-10-31 13:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク