要約
フェデレーテッド ラーニング (FL) システムのパフォーマンスに対するローカル平均化の影響は、クライアントとパラメータ サーバー間の通信遅延が存在する場合に調査されます。
遅延の影響を最小限に抑えるために、クライアントは異なるグループに割り当てられ、各グループにはクライアントのモデルを集約する独自のローカル パラメーター サーバー (LPS) があります。
次に、グループのモデルは、LPS とのみ通信するグローバル パラメーター サーバー (GPS) に集約されます。
このような設定は階層 FL (HFL) として知られています。
文献にあるほとんどの研究とは異なり、私たちの研究におけるローカルおよびグローバル通信ラウンドの数は、クライアントの各グループが経験する (異なる) 遅延によってランダムに決定されます。
具体的には、ローカル平均ラウンドの数は、同期時間 $S$ と呼ばれる実時間の期間に関連付けられ、その後、LPS はモデルを GPS と共有することでモデルを同期します。
このような同期時間 $S$ は、グローバル実時計時間がなくなるまで再適用されます。
まず、GPS で利用可能なモデルに対する各 LPS での更新されたモデル間の偏差の上限が導出されます。
次に、これは、最初に各 LPS で個別に、次に GPS で、私たちが提案する遅延に敏感な HFL アルゴリズムの収束解析を導き出すためのツールとして使用されます。
私たちの理論的な収束限界は、グループの数、グループごとのクライアントの数、$S$ の値など、システム全体のパラメーターの影響を示しています。
私たちの結果は、$S$ の値が、特にトレーニング時間が制限されている状況で遅延統計が HFL のパフォーマンスにどのような影響を与えるかを暗黙的に支配するため、$S$ の値は慎重に選択する必要があることを示しています。
要約(オリジナル)
The impact of local averaging on the performance of federated learning (FL) systems is studied in the presence of communication delay between the clients and the parameter server. To minimize the effect of delay, clients are assigned into different groups, each having its own local parameter server (LPS) that aggregates its clients’ models. The groups’ models are then aggregated at a global parameter server (GPS) that only communicates with the LPSs. Such setting is known as hierarchical FL (HFL). Unlike most works in the literature, the number of local and global communication rounds in our work is randomly determined by the (different) delays experienced by each group of clients. Specifically, the number of local averaging rounds is tied to a wall-clock time period coined the sync time $S$, after which the LPSs synchronize their models by sharing them with the GPS. Such sync time $S$ is then reapplied until a global wall-clock time is exhausted. First, an upper bound on the deviation between the updated model at each LPS with respect to that available at the GPS is derived. This is then used as a tool to derive the convergence analysis of our proposed delay-sensitive HFL algorithm, first at each LPS individually, and then at the GPS. Our theoretical convergence bound showcases the effects of the whole system’s parameters, including the number of groups, the number of clients per group, and the value of $S$. Our results show that the value of $S$ should be carefully chosen, especially since it implicitly governs how the delay statistics affect the performance of HFL in situations where training time is restricted.
arxiv情報
著者 | Abdulmoneam Ali,Ahmed Arafa |
発行日 | 2025-01-15 18:45:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google