Venn: Resource Management Across Federated Learning Jobs

要約

近年、フェデレーテッド ラーニング (FL) が、分散エッジ デバイス全体での機械学習 (ML) とデータ サイエンスの有望なアプローチとして浮上しています。
FL の人気が高まるにつれて、同じデバイス集団でトレーニングする複数の FL ジョブ間のリソース競合も増加しています。
複数の FL ジョブ間のエッジ リソースのスケジューリングは、参加デバイスの一時的な性質と地球規模のスケール、および多様な FL ジョブの重複するリソース要件により、クラウド ML の GPU スケジューリングとは異なります。
FL ジョブの既存のリソース マネージャーは、簡素化とスケーラビリティのために FL ジョブへのデバイスのランダムな割り当てを選択しているため、パフォーマンスの低下につながります。
このペーパーでは、平均ジョブ完了時間 (JCT) を短縮することを目的として、多くの FL ジョブ間で一時的な異種デバイスを効率的にスケジュールする FL リソース マネージャーである Venn について紹介します。
Venn は、複数の FL ジョブ間の複雑なリソース競合を特定するために、Intersection Resource Scheduling (IRS) 問題を定式化します。
次に、Venn は、平均スケジューリング遅延を最小限に抑えるために、競合を意識したスケジューリング ヒューリスティックを提案します。
さらに、障害を軽減して応答収集時間を最適化することに重点を置いた、リソースを認識したデバイスとジョブのマッチング ヒューリスティックを提案します。
私たちの評価によると、最先端の FL リソース マネージャーと比較して、Venn は平均 JCT を最大 1.88 倍向上させています。

要約(オリジナル)

In recent years, federated learning (FL) has emerged as a promising approach for machine learning (ML) and data science across distributed edge devices. With the increasing popularity of FL, resource contention between multiple FL jobs training on the same device population is increasing as well. Scheduling edge resources among multiple FL jobs is different from GPU scheduling for cloud ML because of the ephemeral nature and planetary scale of participating devices as well as the overlapping resource requirements of diverse FL jobs. Existing resource managers for FL jobs opt for random assignment of devices to FL jobs for simplicity and scalability, which leads to poor performance. In this paper, we present Venn, an FL resource manager, that efficiently schedules ephemeral, heterogeneous devices among many FL jobs, with the goal of reducing their average job completion time (JCT). Venn formulates the Intersection Resource Scheduling (IRS) problem to identify complex resource contention among multiple FL jobs. Then, Venn proposes a contention-aware scheduling heuristic to minimize the average scheduling delay. Furthermore, it proposes a resource-aware device-to-job matching heuristic that focuses on optimizing response collection time by mitigating stragglers. Our evaluation shows that, compared to the state-of-the-art FL resource managers, Venn improves the average JCT by up to 1.88X.

arxiv情報

著者 Jiachen Liu,Fan Lai,Ding Ding,Yiwen Zhang,Mosharaf Chowdhury
発行日 2023-12-13 17:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク