要約
フェデレーテッド ラーニング (FL) は、分散モデル トレーニングの新たな標準となっています。これにより、複数のデバイスが、プライベート データをローカライズしながら、中央サーバーによってスケジュールされた独自のデータセットを利用して共有モデルを共同でトレーニングできるようになります。
ただし、トレーニング プロセス中に、異種クライアント上で生成される非独立かつ同一分散 (Non-IID) データと参加者間の頻繁な通信は、トレーニング パフォーマンスに大きな影響を与え、収束速度を低下させ、通信消費量を増加させる可能性があります。
この論文では、各ローカル更新エポックでの集約された勾配を導入することで標準的な確率的勾配降下法を改善し、ローカル パラメーターとグローバル パラメーター間の偏差をさらに考慮した適応学習率反復アルゴリズムを提案します。
前述の適応学習率設計メカニズムでは、すべてのクライアントのローカル情報が必要ですが、ローカル更新エポック中に通信がないため、これは困難です。
各クライアントの分散適応学習率を取得するために、時間の経過とともにクライアントのローカル情報を相互に交換することなく、平均ローカルパラメータと勾配をそれぞれ推定するために2つの平均場の項を利用する平均場アプローチを導入します。
理論的分析を通じて、私たちの方法がモデルトレーニングの収束保証を提供し、クライアントドリフト項の収束上限を導出できることを証明します。
広範な数値結果は、私たちが提案したフレームワークが、IIDおよび非IIDデータ分布を含む実世界のデータセットでのモデル精度と収束率の両方において、最先端のFLスキームよりも優れていることを示しています。
要約(オリジナル)
Federated Learning (FL) has become an emerging norm for distributed model training, which enables multiple devices cooperatively to train a shared model utilizing their own datasets scheduled by a central server while keeping private data localized. However, during the training process, the non-independent-and-identically-distributed (Non-IID) data generated on heterogeneous clients and frequent communication across participants may significantly influence the training performance, slow down the convergent rate, and increase communication consumption. In this paper, we ameliorate the standard stochastic gradient descent approach by introducing the aggregated gradients at each local update epoch and propose an adaptive learning rate iterative algorithm that further takes the deviation between the local parameter and global parameter into account. The aforementioned adaptive learning rate design mechanism requires local information of all clients, which is challenging as there is no communication during the local update epochs. To obtain a decentralized adaptive learning rate for each client, we introduce the mean-field approach by utilizing two mean-field terms to estimate the average local parameters and gradients respectively without exchanging clients’ local information with each other over time. Through theoretical analysis, we prove that our method can provide the convergence guarantee for model training and derive a convergent upper bound for the client drifting term. Extensive numerical results show that our proposed framework is superior to the state-of-the-art FL schemes in both model accuracy and convergent rate on real-world datasets with IID and Non-IID data distribution.
arxiv情報
著者 | Wenhao Yuan,Xuehe Wang |
発行日 | 2023-11-29 14:41:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google