Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

要約

GPUやTPUなどのアクセラレータを備えた強力なクラスターをトレーニングするためのディープラーニング(DL)モデルのスケジューリングは、現在不足しており、細粒の不均一性の認識がないか、リソースを実質的に利用できないままにしています。
このギャップを埋めるために、リソースの使用率を高めることができる最適化フレームワークに基づいて、タスクレベルの異質性を意識したスケジューラであるHadarの新しいデザインを提案します。
Hadarは、不均一なDLクラスター上のDLジョブのパフォーマンス特性を活用し、最適化問題のタスクレベルのパフォーマンスの不均一性を特徴付け、空間的および時間的次元の両方でスケジュールを決定します。
最適化の問題を解決し、スケジューリング設計を導くために、デュアルサブルーチンを採用するプライマルデュアルフレームワークが含まれます。
代表的なDLモデルトレーニングワークロードを使用したトレース駆動型シミュレーションは、Hadarが最先端の不均一性対応のGavelと比較した場合、総期間を1.20倍に加速することを示しています。
さらに、Hadarスケジューラは、各ジョブを複数のコピーに分岐させることにより、Hadareに強化され、不均一なGPUでジョブトレーニングがリソース利用の強化のために別の利用可能なノード(つまり、マシンまたはサーバー)に居住しています。
Hadareは、HadarとGavelとの比較のために、物理的なDLクラスターで広く評価されています。
クラスターリソースの利用が大幅に向上した(1.45倍)、HadareはDLモデルトレーニングでかなりのスピードアップを示し、AmazonのAWS(またはラボ)クラスターで合計時間の期間を50%(または80%)削減し、Hadarがトレーニングしたものよりも一貫して優れた推論品質を備えたトレーニングDLモデルを生成します。

要約(オリジナル)

Scheduling deep learning (DL) models to train on powerful clusters with accelerators like GPUs and TPUs, presently falls short, either lacking fine-grained heterogeneity awareness or leaving resources substantially under-utilized. To fill this gap, we propose a novel design of a task-level heterogeneity-aware scheduler, Hadar, based on an optimization framework that can boost resource utilization. Hadar leverages the performance traits of DL jobs on a heterogeneous DL cluster, characterizes the task-level performance heterogeneity in the optimization problem, and makes scheduling decisions across both spatial and temporal dimensions. It involves the primal-dual framework employing a dual subroutine, to solve the optimization problem and guide the scheduling design. Our trace-driven simulation with representative DL model training workloads demonstrates that Hadar accelerates the total time duration by 1.20x when compared with its state-of-the-art heterogeneity-aware counterpart, Gavel. Further, our Hadar scheduler is enhanced to HadarE by forking each job into multiple copies to let a job train concurrently on heterogeneous GPUs resided on separate available nodes (i.e., machines or servers) for resource utilization enhancement. HadarE is evaluated extensively on physical DL clusters for comparison with Hadar and Gavel. With substantial enhancement in cluster resource utilization (by 1.45x), HadarE exhibits considerable speed-ups in DL model training, reducing the total time duration by 50% (or 80%) on an Amazon’s AWS (or our lab) cluster, while producing trained DL models with consistently better inference quality than those trained by Hadar.

arxiv情報

著者 Abeda Sultana,Nabin Pakka,Fei Xu,Xu Yuan,Li Chen,Nian-Feng Tzeng
発行日 2025-05-21 17:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, I.2.11 パーマリンク