Momentum Benefits Non-IID Federated Learning Simply and Provably

要約

フェデレーテッド ラーニングは大規模な機械学習の強力なパラダイムですが、信頼性の低いネットワーク接続、遅い通信、クライアント間の大幅なデータの異質性により、重大な課題に直面しています。
FedAvg と SCAFFOLD は、これらの課題に対処する 2 つの著名なアルゴリズムです。
特に、FedAvg は中央サーバーと通信する前に複数のローカル更新を採用しますが、SCAFFOLD はローカル更新の「クライアント ドリフト」を補正するために各クライアント上で制御変数を維持します。
これら 2 つのアルゴリズムの収束性を高めるためにさまざまな方法が提案されていますが、それらはアルゴリズム構造に非現実的な調整を行うか、制限されたデータの異質性の仮定に依存しています。
このペーパーでは、FedAvg と SCAFFOLD のパフォーマンスを向上させるためのモメンタムの利用について検討します。
すべてのクライアントがトレーニング プロセスに参加する場合、モーメンタムを組み込むことで、一定のローカル学習率を使用した場合でも、境界付きデータの異質性の仮定に依存せずに FedAvg が収束できることを実証します。
FedAvg の既存の分析では、たとえローカル学習率が低下していても、制限されたデータの異質性が必要であるため、これは斬新でかなり驚くべきことです。
クライアントの部分的な参加において、追加の仮定を課すことなく、勢いによって SCAFFOLD が明らかにより速く収束できることを示します。
さらに、勢いを利用して、最先端の収束率を示す FedAvg および SCAFFOLD の新しい分散を低減した拡張機能を開発します。
私たちの実験結果はすべての理論的発見を裏付けています。

要約(オリジナル)

Federated learning is a powerful paradigm for large-scale machine learning, but it faces significant challenges due to unreliable network connections, slow communication, and substantial data heterogeneity across clients. FedAvg and SCAFFOLD are two prominent algorithms to address these challenges. In particular, FedAvg employs multiple local updates before communicating with a central server, while SCAFFOLD maintains a control variable on each client to compensate for “client drift” in its local updates. Various methods have been proposed to enhance the convergence of these two algorithms, but they either make impractical adjustments to the algorithmic structure or rely on the assumption of bounded data heterogeneity. This paper explores the utilization of momentum to enhance the performance of FedAvg and SCAFFOLD. When all clients participate in the training process, we demonstrate that incorporating momentum allows FedAvg to converge without relying on the assumption of bounded data heterogeneity even using a constant local learning rate. This is novel and fairly surprising as existing analyses for FedAvg require bounded data heterogeneity even with diminishing local learning rates. In partial client participation, we show that momentum enables SCAFFOLD to converge provably faster without imposing any additional assumptions. Furthermore, we use momentum to develop new variance-reduced extensions of FedAvg and SCAFFOLD, which exhibit state-of-the-art convergence rates. Our experimental results support all theoretical findings.

arxiv情報

著者 Ziheng Cheng,Xinmeng Huang,Pengfei Wu,Kun Yuan
発行日 2024-03-05 17:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク