MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems

要約

大規模な機械学習 (ML) モデルのトレーニングとデプロイには時間がかかり、大規模な分散コンピューティング インフラストラクチャが必要です。
データセンター規模のインフラストラクチャでの実世界の大規模モデルのトレーニングに基づいて、すべての GPU 時間の 14 ~ 32% が、重複する計算のない通信に費やされていることがわかります。
顕著な通信遅延を最小限に抑えるために、この作業では、並列化とハードウェアとソフトウェアの共同設計戦略を導くアジャイル パフォーマンス モデリング フレームワークを開発します。
最先端の GPU トレーニング ハードウェア上で現実世界の大規模 ML モデルのスイートを使用して、事前トレーニング シナリオと推論シナリオでそれぞれ 2.24 倍と 5.27 倍のスループット向上の可能性を実証しました。

要約(オリジナル)

Training and deploying large machine learning (ML) models is time-consuming and requires significant distributed computing infrastructures. Based on real-world large model training on datacenter-scale infrastructures, we show 14~32% of all GPU hours are spent on communication with no overlapping computation. To minimize the outstanding communication latency, in this work, we develop an agile performance modeling framework to guide parallelization and hardware-software co-design strategies. Using the suite of real-world large ML models on state-of-the-art GPU training hardware, we demonstrate 2.24x and 5.27x throughput improvement potential for pre-training and inference scenarios, respectively.

arxiv情報

著者 Samuel Hsia,Alicia Golden,Bilge Acun,Newsha Ardalani,Zachary DeVito,Gu-Yeon Wei,David Brooks,Carole-Jean Wu
発行日 2023-10-18 15:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.DC, cs.LG パーマリンク