COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training

要約

最新の深層学習 (DL) モデルは、トレーニングに特化したハイエンド ノードの大規模なクラスターを必要とするサイズにまで成長しました。
このようなクラスターを、パフォーマンスと使用率の両方を最大化するように設計すること、つまり高額なコストを償却することは、コンピューティング、メモリ、およびネットワーク リソースの慎重なバランスを必要とする困難な作業です。
さらに、各モデルの多数の調整ノブがパフォーマンスに大きく影響し、最適値は基礎となるクラスターの特性に依存することが多く、複雑なクラスターとワークロードの共同設計プロセスが必要になります。
このような大規模な DL トレーニング クラスターの設計空間の探索を容易にするために、分散 DL トレーニングのパフォーマンスに対する並列化戦略と主要なクラスター リソース プロビジョニングの影響を共同で研究するための総合的なクラスター設計方法論とワークフローである COMET を導入します。
再利用可能で柔軟な方法論を確立するための段階的なプロセスを開発し、可変のコンピューティング、メモリ、およびネットワーク リソースのクラスター構成で大規模なモデルをトレーニングするケーススタディを使用してその適用を実証します。
私たちのケーススタディは、有望なアーキテクチャ最適化の方向性を特定し、システム設計者が主要なモデルとクラスターパラメータを構成するのをガイドする上での COMET の有用性を実証しています。
たとえば、クラスター構成を比較すると、最適化手法としてメモリ拡張を採用した場合、最大 7.7 倍のパフォーマンスの違いが確認され、最大 1.4 倍のパフォーマンス最適化の機会が明らかになります。

要約(オリジナル)

Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization–to amortize their steep cost–is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model’s tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster’s characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET, a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with case studies of training large models on cluster configurations of variable compute, memory, and network resources. Our case studies demonstrate COMET’s utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters. To illustrate, cluster configuration comparisons identify performance differences of up to 7.7x and highlight performance optimization opportunities of up to 1.4x when employing memory expansion as an optimization technique.

arxiv情報

著者 Divya Kiran Kadiyala,Saeed Rashidi,Taekyung Heo,Abhimanyu Rajeshkumar Bambhaniya,Tushar Krishna,Alexandros Daglis
発行日 2024-03-14 15:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク