Locally Adaptive Federated Learning via Stochastic Polyak Stepsizes

要約

FedAvg などの最先端の連合学習アルゴリズムでは、最高のパフォーマンスを達成するために慎重に調整されたステップサイズが必要です。
既存の適応型フェデレーテッド手法によって提案されている改善には、運動量パラメータなどの追加のハイパーパラメータの調整が含まれており、ローカルではなくサーバー集約ラウンドでのみ適応性が考慮されています。
これらの方法は、ハイパーパラメータの過度の調整が必要であり、局所的な幾何学的情報を取得しないため、多くの実際のシナリオでは非効率的になる可能性があります。
この研究では、最近提案された確率的 Polyak ステップサイズ (SPS) を連合学習設定に拡張し、新しい局所適応型でほぼパラメーターフリーの分散型 SPS バリアント (FedSPS および FedDecSPS) を提案します。
FedSPS は、内挿条件 (オーバーパラメータ化) が満たされると、強い凸設定では線形に、凸設定では準線形に収束し、一般的な場合には解の近傍に収束することを証明します。
提案した方法を、補間条件が成立しない場合にも収束する、ステップサイズを減少させるバージョン FedDecSPS に拡張します。
例示的な凸実験を実行することにより、理論的主張を検証します。
私たちが提案するアルゴリズムは、i.i.d. で最適に調整されたハイパーパラメーターを使用して FedAvg の最適化パフォーマンスと一致します。
非 i.i.d の場合は FedAvg を上回ります。
場合。

要約(オリジナル)

State-of-the-art federated learning algorithms such as FedAvg require carefully tuned stepsizes to achieve their best performance. The improvements proposed by existing adaptive federated methods involve tuning of additional hyperparameters such as momentum parameters, and consider adaptivity only in the server aggregation round, but not locally. These methods can be inefficient in many practical scenarios because they require excessive tuning of hyperparameters and do not capture local geometric information. In this work, we extend the recently proposed stochastic Polyak stepsize (SPS) to the federated learning setting, and propose new locally adaptive and nearly parameter-free distributed SPS variants (FedSPS and FedDecSPS). We prove that FedSPS converges linearly in strongly convex and sublinearly in convex settings when the interpolation condition (overparametrization) is satisfied, and converges to a neighborhood of the solution in the general case. We extend our proposed method to a decreasing stepsize version FedDecSPS, that converges also when the interpolation condition does not hold. We validate our theoretical claims by performing illustrative convex experiments. Our proposed algorithms match the optimization performance of FedAvg with the best tuned hyperparameters in the i.i.d. case, and outperform FedAvg in the non-i.i.d. case.

arxiv情報

著者 Sohom Mukherjee,Nicolas Loizou,Sebastian U. Stich
発行日 2023-07-12 17:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク