TimelyFL: Heterogeneity-aware Asynchronous Federated Learning with Adaptive Partial Training

要約

タイトル: TimelyFL:適応的部分学習による異種間意識を持った非同期Federated Learning

要約:
– Federated Learning(FL)環境では、遅延者がトレーニングプロセスを妨げるため、同期的なFL手法をスケーリングすることは困難です。
– さらに、システムの異種性と断続的な接続のため、各クライアントがトレーニングに参加できる可用性は非常に変動します。
– 最近、非同期FL方法(FedBuffなど)が提案され、古いモデルをもとに遅いユーザーがローカルトレーニングを続け、準備ができたら集約に貢献できるようになりました。
– しかしながら、我々はEmpirically that-basedこの方法がトレーニングの正確性の大幅な低下や収束率の低下につながることを示しています。その主な理由は、高速なデバイスがより多くの集約ラウンドに寄与する一方、他のデバイスはより断続的に参加するか、まったく参加しないことによる古いモデルの更新である。
– この障壁を克服するために、我々は、リアルタイムのリソース能力に基づいて各クライアントのローカルトレーニングのワークロードを調整する、異種間意識を持った非同期FLフレームワークであるTimelyFLを提案します。これにより、より利用可能なクライアントがスタレネスなしでグローバル更新に参加できるようになります。
– CIFAR-10、Google Speech、Redditなどのさまざまなデータセット(ResNet20、VGG11、ALBERTなどのモデル)で幅広い実験を実施し、TimelyFLの性能の利点を実証します。
– FedBuffの状態比較(即ち、FedBuff)に対し、21.13%の参加率向上、収束率で1.28倍から2.89倍の効率向上、テスト精度で6.25%の増加を提供するTimelyFLの評価が明らかになりました。

要約(オリジナル)

In cross-device Federated Learning (FL) environments, scaling synchronous FL methods is challenging as stragglers hinder the training process. Moreover, the availability of each client to join the training is highly variable over time due to system heterogeneities and intermittent connectivity. Recent asynchronous FL methods (e.g., FedBuff) have been proposed to overcome these issues by allowing slower users to continue their work on local training based on stale models and to contribute to aggregation when ready. However, we show empirically that this method can lead to a substantial drop in training accuracy as well as a slower convergence rate. The primary reason is that fast-speed devices contribute to many more rounds of aggregation while others join more intermittently or not at all, and with stale model updates. To overcome this barrier, we propose TimelyFL, a heterogeneity-aware asynchronous FL framework with adaptive partial training. During the training, TimelyFL adjusts the local training workload based on the real-time resource capabilities of each client, aiming to allow more available clients to join in the global update without staleness. We demonstrate the performance benefits of TimelyFL by conducting extensive experiments on various datasets (e.g., CIFAR-10, Google Speech, and Reddit) and models (e.g., ResNet20, VGG11, and ALBERT). In comparison with the state-of-the-art (i.e., FedBuff), our evaluations reveal that TimelyFL improves participation rate by 21.13%, harvests 1.28x – 2.89x more efficiency on convergence rate, and provides a 6.25% increment on test accuracy.

arxiv情報

著者 Tuo Zhang,Lei Gao,Sunwoo Lee,Mi Zhang,Salman Avestimehr
発行日 2023-04-14 06:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DC, cs.LG パーマリンク