要約
急速に進化するエクサスケール スーパーコンピューターの状況では、マルチ GPU ノードがますます一般的になってきています。
これらのシステムでは、同じノード上の GPU が、最大数テラビット/秒の帯域幅を持つ専用ネットワークを介して接続されます。
ただし、テクノロジー、設計オプション、およびソフトウェア層が異なるため、期待されるパフォーマンスを評価し、システム効率を最大化することは困難です。
このペーパーでは、それぞれが独自のアーキテクチャと設計を持つ 3 つのスーパーコンピューター (Alps、Leonardo、LUMI) を包括的に特徴付けています。
ノード内ベンチマークとノード間ベンチマークを組み合わせて使用し、最大 4096 GPU でのノード内およびノード間の相互接続のパフォーマンス評価に重点を置いています。
その限界と機会を分析することで、マルチ GPU スーパーコンピューティングを扱う研究者、システム アーキテクト、ソフトウェア開発者に実践的なガイダンスを提供することを目指しています。
私たちの結果は、未利用の帯域幅が存在し、ネットワークからソフトウェアの最適化に至るまで、最適化の機会がまだ多くあることを示しています。
要約(オリジナル)
Multi-GPU nodes are increasingly common in the rapidly evolving landscape of exascale supercomputers. On these systems, GPUs on the same node are connected through dedicated networks, with bandwidths up to a few terabits per second. However, gauging performance expectations and maximizing system efficiency is challenging due to different technologies, design options, and software layers. This paper comprehensively characterizes three supercomputers – Alps, Leonardo, and LUMI – each with a unique architecture and design. We focus on performance evaluation of intra-node and inter-node interconnects on up to 4096 GPUs, using a mix of intra-node and inter-node benchmarks. By analyzing its limitations and opportunities, we aim to offer practical guidance to researchers, system architects, and software developers dealing with multi-GPU supercomputing. Our results show that there is untapped bandwidth, and there are still many opportunities for optimization, ranging from network to software optimization.
arxiv情報
著者 | Daniele De Sensi,Lorenzo Pichetti,Flavio Vella,Tiziano De Matteis,Zebin Ren,Luigi Fusco,Matteo Turisini,Daniele Cesarini,Kurt Lust,Animesh Trivedi,Duncan Roweth,Filippo Spiga,Salvatore Di Girolamo,Torsten Hoefler |
発行日 | 2024-11-15 17:55:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google