要約
最新の不均一なスーパーコンピューティングシステムでの計算ノードは、CPU、GPU、および高速ネットワーク相互接続(NICS)で構成されています。
並列化は、これらのシステムを効果的に利用してスケーラブルなシミュレーションとディープラーニングワークロードを実行する手法として特定されています。
これらの並列ワークロードの分散型実行から得られるプロセス間通信は、そのパフォーマンスボトルネックに貢献する重要な要因の1つです。
これらのシステムの通信要件を可能にするほとんどのプログラミングモデルとランタイムシステムは、ホストメモリをステージングすることなく、GPUからGPUからNICに直接移動するGPUアウェア通信スキームをサポートします。
CPUスレッドは、このようなGPU認識をサポートしても、通信操作を調整するために必要です。
この調査では、CPUからGPUに通信操作の制御パスを移動するさまざまな利用可能なGPU中心の通信スキームについて説明します。
この作業は、新しい通信スキーム、スキームの実装に必要なさまざまなGPUおよびNIC機能、および対処される潜在的なユースケースの必要性を示しています。
これらの議論に基づいて、展示されたGPU中心のコミュニケーションスキームのサポートに伴う課題について説明します。
要約(オリジナル)
Compute nodes on modern heterogeneous supercomputing systems comprise CPUs, GPUs, and high-speed network interconnects (NICs). Parallelization is identified as a technique for effectively utilizing these systems to execute scalable simulation and deep learning workloads. The resulting inter-process communication from the distributed execution of these parallel workloads is one of the key factors contributing to its performance bottleneck. Most programming models and runtime systems enabling the communication requirements on these systems support GPU-aware communication schemes that move the GPU-attached communication buffers in the application directly from the GPU to the NIC without staging through the host memory. A CPU thread is required to orchestrate the communication operations even with support for such GPU-awareness. This survey discusses various available GPU-centric communication schemes that move the control path of the communication operations from the CPU to the GPU. This work presents the need for the new communication schemes, various GPU and NIC capabilities required to implement the schemes, and the potential use-cases addressed. Based on these discussions, challenges involved in supporting the exhibited GPU-centric communication schemes are discussed.
arxiv情報
著者 | Naveen Namashivayam |
発行日 | 2025-03-31 15:43:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google