Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays

要約

タイトル:任意遅延下で非同期SGDがミニバッチSGDを上回る。

要約:
– 既存の非同期確率勾配降下法(SGD)の解析は、任意の遅延が大きい場合には劇的に劣化し、性能は主に遅延に依存するという印象を与える。しかし、我々は、遅延の時系列に依存することなく、同じ非同期SGDアルゴリズムに対してはるかに優れた保証を与えることを証明する。保証は既存の解析よりも優れており、我々は、非同期SGDが我々が考慮する設定において同期ミニバッチSGDを上回ることを論じる。
– 解析には、仮想反復と遅延適応ステップサイズに基づく新しい再帰を導入し、凸および非凸の目的関数の両方に対して、最先端の保証を導出することができる。

要約(オリジナル)

The existing analysis of asynchronous stochastic gradient descent (SGD) degrades dramatically when any delay is large, giving the impression that performance depends primarily on the delay. On the contrary, we prove much better guarantees for the same asynchronous SGD algorithm regardless of the delays in the gradients, depending instead just on the number of parallel devices used to implement the algorithm. Our guarantees are strictly better than the existing analyses, and we also argue that asynchronous SGD outperforms synchronous minibatch SGD in the settings we consider. For our analysis, we introduce a novel recursion based on ‘virtual iterates’ and delay-adaptive stepsizes, which allow us to derive state-of-the-art guarantees for both convex and non-convex objectives.

arxiv情報

著者 Konstantin Mishchenko,Francis Bach,Mathieu Even,Blake Woodworth
発行日 2023-04-20 08:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DC, cs.LG, math.OC パーマリンク