Faster Federated Learning with Decaying Number of Local SGD Steps

要約

Federated Learning (FL) では、インターネット経由で接続されたクライアント デバイスが、プライベート データを中央サーバーや他のクライアントと共有することなく、機械学習モデルを共同でトレーニングします。
独創的な Federated Averaging (FedAvg) アルゴリズムは、クライアント上でローカル トレーニングのラウンドを実行し、その後モデルの平均化を行うことによって、単一のグローバル モデルをトレーニングします。
FedAvg は、各ラウンドでクライアントに対してより多くのステップの確率的勾配降下法 (SGD) を実行することで、トレーニングの通信効率を向上させることができます。
ただし、現実世界の FL のクライアント データは非常に異質であり、ラウンドごとに SGD の $K > 1$ ステップがクライアントに対して実行されると、モデルの収束が遅くなり、最終的なパフォーマンスが損なわれることが広く示されています。
この研究では、トレーニングの進行に応じて $K$ が減衰することを提案します。これにより、固定 $K$ を使用する場合と比較して、トレーニングの実時間と総計算コストを削減しながら、FL モデルの最終パフォーマンスを向上させることができます。
我々は、強凸目標について $K$ の減衰による FedAvg の収束を分析し、収束特性に対する新たな洞察を提供し、理論的に動機付けられた $K$ の 3 つの減衰スケジュールを導き出します。
次に、4 つのベンチマーク FL データセット (FEMNIST、CIFAR100、Sentiment140、Shakespeare) で徹底的な実験を実行し、現実世界の収束時間、計算コスト、汎化パフォーマンスの観点から、このアプローチの現実世界の利点を示します。

要約(オリジナル)

In Federated Learning (FL) client devices connected over the internet collaboratively train a machine learning model without sharing their private data with a central server or with other clients. The seminal Federated Averaging (FedAvg) algorithm trains a single global model by performing rounds of local training on clients followed by model averaging. FedAvg can improve the communication-efficiency of training by performing more steps of Stochastic Gradient Descent (SGD) on clients in each round. However, client data in real-world FL is highly heterogeneous, which has been extensively shown to slow model convergence and harm final performance when $K > 1$ steps of SGD are performed on clients per round. In this work we propose decaying $K$ as training progresses, which can jointly improve the final performance of the FL model whilst reducing the wall-clock time and the total computational cost of training compared to using a fixed $K$. We analyse the convergence of FedAvg with decaying $K$ for strongly-convex objectives, providing novel insights into the convergence properties, and derive three theoretically-motivated decay schedules for $K$. We then perform thorough experiments on four benchmark FL datasets (FEMNIST, CIFAR100, Sentiment140, Shakespeare) to show the real-world benefit of our approaches in terms of real-world convergence time, computational cost, and generalisation performance.

arxiv情報

著者 Jed Mills,Jia Hu,Geyong Min
発行日 2023-05-16 17:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク