要約
タイトル – Async-HFL:階層的IoTネットワークにおける効率的かつ堅牢な非同期フェデレーテッドラーニング
要約 – フェデレーテッドラーニング(FL)は、分散オンデバイス学習のパラダイムとして、近年ますます注目を集めています。しかし、階層的なインターネットオブシングス(IoT)ネットワークにFLを展開するためには、複数の課題が残っています。既存の手法は、データの異質性、システムの異質性、予期しない遅延者、スケーラビリティを考慮するためのさまざまなアプローチを提案していますが、どれも階層的かつ信頼性の低いIoTネットワークのすべての課題を解決する体系的な解決策を提供していません。本論文では、一般的な3層IoTネットワークアーキテクチャでFLを実行するための非同期かつ階層的なフレームワーク(Async-HFL)を提案します。Async-HFLは、大きく異なる遅延に対応するため、ゲートウェイおよびクラウドレベルの非同期集計を採用しているため、待ち時間が長くなりません。システムの異質性とストラグラーに対応するために、Gatewayレベルでデバイス選択を設計し、Cloudレベルでデバイスゲートウェイ関連を決定しています。デバイス選択は、リアルタイムでローカルトレーニングを開始するためにエッジデバイスを選択し、デバイスゲートウェイ関連は、クラウドエポック後に周期的にネットワークトポロジを決定し、帯域幅制限を満たします。 ns-3およびNYCMeshからのネットワークトポロジに基づく大規模なシミュレーションを用いて、Async-HFLの収束速度を評価しました。結果は、Async-HFLは、クライアント選択を備えた最新の非同期FLアルゴリズムと比較して、1.08〜1.31倍高速に収束し、総通信コストを最大21.6%節約できることを示しています。我々はさらに、物理的な展開でAsync-HFLを検証し、予期しないストラグラーの下で堅牢な収束を観察しました。
要約(オリジナル)
Federated Learning (FL) has gained increasing interest in recent years as a distributed on-device learning paradigm. However, multiple challenges remain to be addressed for deploying FL in real-world Internet-of-Things (IoT) networks with hierarchies. Although existing works have proposed various approaches to account data heterogeneity, system heterogeneity, unexpected stragglers and scalibility, none of them provides a systematic solution to address all of the challenges in a hierarchical and unreliable IoT network. In this paper, we propose an asynchronous and hierarchical framework (Async-HFL) for performing FL in a common three-tier IoT network architecture. In response to the largely varied delays, Async-HFL employs asynchronous aggregations at both the gateway and the cloud levels thus avoids long waiting time. To fully unleash the potential of Async-HFL in converging speed under system heterogeneities and stragglers, we design device selection at the gateway level and device-gateway association at the cloud level. Device selection chooses edge devices to trigger local training in real-time while device-gateway association determines the network topology periodically after several cloud epochs, both satisfying bandwidth limitation. We evaluate Async-HFL’s convergence speedup using large-scale simulations based on ns-3 and a network topology from NYCMesh. Our results show that Async-HFL converges 1.08-1.31x faster in wall-clock time and saves up to 21.6% total communication cost compared to state-of-the-art asynchronous FL algorithms (with client selection). We further validate Async-HFL on a physical deployment and observe robust convergence under unexpected stragglers.
arxiv情報
著者 | Xiaofan Yu,Ludmila Cherkasova,Harsh Vardhan,Quanling Zhao,Emily Ekaireb,Xiyuan Zhang,Arya Mazumdar,Tajana Rosing |
発行日 | 2023-04-04 06:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI