Reactive Orchestration for Hierarchical Federated Learning Under a Communication Cost Budget

要約

コンピューティング連続体 (CC) 全体に階層フェデレーテッド ラーニング (HFL) パイプラインを展開するには、FL クライアントとグローバル FL サーバーの間に中間集約ノードを備えた階層構造に参加者を慎重に編成する必要があります。
これは、(i) コストの制約、(ii) 変化するデータ分布、および (iii) CC の不安定な動作環境のため、達成するのが困難です。
これらの課題に対応して、通信コストと ML モデルの精度のバランスをとりながら、クライアントのチャーンやインフラストラクチャ レベルのイベントに反応するように設計された、HFL パイプラインの適応型オーケストレーションのフレームワークを紹介します。
当社のメカニズムは、マルチレベルの監視情報 (モデルの精度、リソースの可用性、リソースのコスト) に基づいて、実行時に HFL 再構成アクションを引き起こすイベントを特定して対応します。
さらに、私たちのフレームワークは、さまざまな HFL パフォーマンス基準に合わせて最適化するために拡張可能であると同時に、適応アクションの品質を継続的に再評価するために再構成コストを見積もるための一般的な方法論を導入しています。
Kubernetes エコシステムを拡張することで、当社のフレームワークは、運用環境の変化に迅速かつ効果的に対応し、利用可能な通信コスト予算を最大限に活用し、実行時のコストと ML パフォーマンスのバランスを効果的にとれる能力を実証します。

要約(オリジナル)

Deploying a Hierarchical Federated Learning (HFL) pipeline across the computing continuum (CC) requires careful organization of participants into a hierarchical structure with intermediate aggregation nodes between FL clients and the global FL server. This is challenging to achieve due to (i) cost constraints, (ii) varying data distributions, and (iii) the volatile operating environment of the CC. In response to these challenges, we present a framework for the adaptive orchestration of HFL pipelines, designed to be reactive to client churn and infrastructure-level events, while balancing communication cost and ML model accuracy. Our mechanisms identify and react to events that cause HFL reconfiguration actions at runtime, building on multi-level monitoring information (model accuracy, resource availability, resource cost). Moreover, our framework introduces a generic methodology for estimating reconfiguration costs to continuously re-evaluate the quality of adaptation actions, while being extensible to optimize for various HFL performance criteria. By extending the Kubernetes ecosystem, our framework demonstrates the ability to react promptly and effectively to changes in the operating environment, making the best of the available communication cost budget and effectively balancing costs and ML performance at runtime.

arxiv情報

著者 Ivan Čilić,Anna Lackinger,Pantelis Frangoudis,Ivana Podnar Žarko,Alireza Furutanpey,Ilir Murturi,Schahram Dustdar
発行日 2024-12-04 15:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.NI パーマリンク