ProxSkip: Yes! Local Gradient Steps Provably Lead to Communication Acceleration! Finally!

要約

ProxSkip を紹介します。これは、滑らかな ($f$) 関数と高価な非滑らかな近似可能 ($\psi$) 関数の合計を最小化するための、驚くほど単純で証明可能な効率的な方法です。
このような問題を解決するための標準的なアプローチは、各反復における $f$ の勾配と $\psi$ の prox 演算子の評価に基づく近位勾配降下法 (ProxGD) アルゴリズムを使用することです。
この作業では、prox の評価が勾配の評価に比べてコストがかかる体制に特に関心があります。これは、多くのアプリケーションに当てはまります。
ProxSkip を使用すると、ほとんどの繰り返しで高価な prox 演算子をスキップできます: その繰り返しの複雑さは $\mathcal{O}\left(\kappa \log \frac{1}{\varepsilon}\right)$ ですが、ここで $\kappa
$ は $f$ の条件数、prox 評価の数は $\mathcal{O}\left(\sqrt{\kappa} \log \frac{1}{\varepsilon}\right)$ のみです。
私たちの主な動機はフェデレーテッド ラーニングに由来します。ここで、勾配演算子の評価は、すべてのデバイスでローカル GD ステップを個別に実行することに対応し、prox の評価は、勾配平均化の形での (高価な) 通信に対応します。
このコンテキストでは、ProxSkip は通信の複雑さを効果的に加速します。
FedAvg、SCAFFOLD、S-Local-GD、FedLin などの他のローカル勾配型の方法とは異なり、その理論的な通信の複雑さは、異種データ体制におけるバニラ GD のそれよりも悪いか、せいぜい一致します。
異質性境界の仮定なしで大幅な改善。

要約(オリジナル)

We introduce ProxSkip — a surprisingly simple and provably efficient method for minimizing the sum of a smooth ($f$) and an expensive nonsmooth proximable ($\psi$) function. The canonical approach to solving such problems is via the proximal gradient descent (ProxGD) algorithm, which is based on the evaluation of the gradient of $f$ and the prox operator of $\psi$ in each iteration. In this work we are specifically interested in the regime in which the evaluation of prox is costly relative to the evaluation of the gradient, which is the case in many applications. ProxSkip allows for the expensive prox operator to be skipped in most iterations: while its iteration complexity is $\mathcal{O}\left(\kappa \log \frac{1}{\varepsilon}\right)$, where $\kappa$ is the condition number of $f$, the number of prox evaluations is $\mathcal{O}\left(\sqrt{\kappa} \log \frac{1}{\varepsilon}\right)$ only. Our main motivation comes from federated learning, where evaluation of the gradient operator corresponds to taking a local GD step independently on all devices, and evaluation of prox corresponds to (expensive) communication in the form of gradient averaging. In this context, ProxSkip offers an effective acceleration of communication complexity. Unlike other local gradient-type methods, such as FedAvg, SCAFFOLD, S-Local-GD and FedLin, whose theoretical communication complexity is worse than, or at best matching, that of vanilla GD in the heterogeneous data regime, we obtain a provable and large improvement without any heterogeneity-bounding assumptions.

arxiv情報

著者 Konstantin Mishchenko,Grigory Malinovsky,Sebastian Stich,Peter Richtárik
発行日 2023-03-24 11:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク