CAFe: Cost and Age aware Federated Learning

要約

多くのフェデレーテッド ラーニング (FL) モデルでは、トレーニング プロセスの進行を確実にするために採用される一般的な戦略は、合計 $N$ クライアントのうち少なくとも $M$ クライアントがレポートに基づいてローカル勾配を送り返すのを待つことです。
パラメータ サーバー (PS) がグローバル モデルをブロードキャストした後の期限 $T$。
十分な数のクライアントが期限内に報告しない場合、特定のラウンドは失敗したラウンドとみなされ、トレーニング ラウンドが最初から再開されます。
十分な数のクライアントが応答した場合、ラウンドは成功したとみなされ、応答したすべてのクライアントのローカル勾配がグローバル モデルの更新に使用されます。
いずれの場合も、期限内に更新を報告できなかったクライアントは、計算リソースを無駄に消費することになります。
期限が厳しく ($T$ が小さい)、参加するクライアントの数が多い ($M$ が大きい) と待機していると、ラウンドの失敗が多くなり、通信コストと計算リソースの浪費が大きくなります。
ただし、$T$ が大きいとラウンド時間が長くなり、$M$ が小さいと勾配にノイズが多くなる可能性があります。
したがって、許容可能な収束率を持ちながら、通信コストとリソースの無駄が最小限に抑えられるように、パラメータ $M$ と $T$ を最適化する必要があります。
これに関して、PS でのクライアントの平均年齢は理論的な収束限界に明示的に現れ、したがってグローバル モデルの収束を定量化するための指標として使用できることを示します。
この設定でパラメーター $M$ と $T$ を選択するための分析スキームを提供します。

要約(オリジナル)

In many federated learning (FL) models, a common strategy employed to ensure the progress in the training process, is to wait for at least $M$ clients out of the total $N$ clients to send back their local gradients based on a reporting deadline $T$, once the parameter server (PS) has broadcasted the global model. If enough clients do not report back within the deadline, the particular round is considered to be a failed round and the training round is restarted from scratch. If enough clients have responded back, the round is deemed successful and the local gradients of all the clients that responded back are used to update the global model. In either case, the clients that failed to report back an update within the deadline would have wasted their computational resources. Having a tighter deadline (small $T$) and waiting for a larger number of participating clients (large $M$) leads to a large number of failed rounds and therefore greater communication cost and computation resource wastage. However, having a larger $T$ leads to longer round durations whereas smaller $M$ may lead to noisy gradients. Therefore, there is a need to optimize the parameters $M$ and $T$ such that communication cost and the resource wastage is minimized while having an acceptable convergence rate. In this regard, we show that the average age of a client at the PS appears explicitly in the theoretical convergence bound, and therefore, can be used as a metric to quantify the convergence of the global model. We provide an analytical scheme to select the parameters $M$ and $T$ in this setting.

arxiv情報

著者 Sahan Liyanaarachchi,Kanchana Thilakarathna,Sennur Ulukus
発行日 2024-05-24 17:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.IT, cs.LG, math.IT パーマリンク