Reactive Orchestration for Hierarchical Federated Learning Under a Communication Cost Budget

要約

コンピューティング連続体(CC)全体に階層的フェデレーション学習(HFL)パイプラインを展開するには、FLクライアントとグローバルFLサーバー間の中間集約ノードを備えた階層構造に参加者を慎重に組織する必要があります。
これは、(i)コストの制約、(ii)さまざまなデータ分布、および(iii)CCの揮発性動作環境のために達成するのが困難です。
これらの課題に応えて、クライアントのチャーンおよびインフラレベルのイベントに反応するように設計されたHFLパイプラインの適応オーケストレーションのフレームワークを提示し、通信コストとMLモデルの精度のバランスを取ります。
私たちのメカニズムは、マルチレベルの監視情報(モデルの精度、リソースの可用性、リソースコスト)に基づいて、実行時にHFL再構成アクションを引き起こすイベントを特定し、反応します。
さらに、私たちのフレームワークでは、さまざまなHFLパフォーマンス基準を最適化するために拡張可能であると同時に、適応アクションの品質を継続的に再評価するために再構成コストを推定するための一般的な方法論を紹介します。
Kubernetesエコシステムを拡張することにより、当社のフレームワークは、営業環境の変化に迅速かつ効果的に反応する能力を示し、利用可能な通信コスト予算を最大限に活用し、実行時にコストとMLのパフォーマンスを効果的にバランスさせます。

要約(オリジナル)

Deploying a Hierarchical Federated Learning (HFL) pipeline across the computing continuum (CC) requires careful organization of participants into a hierarchical structure with intermediate aggregation nodes between FL clients and the global FL server. This is challenging to achieve due to (i) cost constraints, (ii) varying data distributions, and (iii) the volatile operating environment of the CC. In response to these challenges, we present a framework for the adaptive orchestration of HFL pipelines, designed to be reactive to client churn and infrastructure-level events, while balancing communication cost and ML model accuracy. Our mechanisms identify and react to events that cause HFL reconfiguration actions at runtime, building on multi-level monitoring information (model accuracy, resource availability, resource cost). Moreover, our framework introduces a generic methodology for estimating reconfiguration costs to continuously re-evaluate the quality of adaptation actions, while being extensible to optimize for various HFL performance criteria. By extending the Kubernetes ecosystem, our framework demonstrates the ability to react promptly and effectively to changes in the operating environment, making the best of the available communication cost budget and effectively balancing costs and ML performance at runtime.

arxiv情報

著者 Ivan Čilić,Anna Lackinger,Pantelis Frangoudis,Ivana Podnar Žarko,Alireza Furutanpey,Ilir Murturi,Schahram Dustdar
発行日 2025-04-28 13:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.NI パーマリンク