Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach

要約

GPU ベースの異種アーキテクチャは現在、HPC クラスターで一般的に使用されています。
データレベルの並列処理に特化したアーキテクチャの単純さにより、GPU は同世代の CPU よりもはるかに高い計算スループットとメモリ帯域幅を提供できます。
ただし、GPU で利用可能なリソースが過去数十年で急激に増加するにつれて、単一のプログラムでそれらを完全に活用することがますます困難になってきています。
その結果、業界は、同じ GPU ダイ上で同時に複数のプログラムを同時スケジュールすることでリソース使用率を向上させるために、いくつかのリソース パーティショニング機能のサポートを開始しました。
このペーパーでは、技術トレンドに基づいて、最新の GPU での階層的なリソース パーティショニングに焦点を当てています。例として、最近の NVIDIA GPU で利用可能な 2 つの異なる機能を階層的に組み合わせて利用します。
-粒度の高い論理パーティショニング。
MIG (マルチインスタンス GPU)、粗粒度の物理パーティショニング。
プロファイルを使用した強化学習に基づいて、階層的なパーティショニングのセットアップと、特定のジョブのセットからの同時スケジュールグループの選択を包括的に共同最適化する方法を提案します。
私たちの徹底的な実験結果は、私たちのアプローチがジョブの並行性、パーティショニング、およびグループ選択の同時スケジュールを同時にセットアップできることを示しています。
これにより、タイムシェアリング スケジューリングと比較して、最大スループットが 1.87 倍向上します。

要約(オリジナル)

GPU-based heterogeneous architectures are now commonly used in HPC clusters. Due to their architectural simplicity specialized for data-level parallelism, GPUs can offer much higher computational throughput and memory bandwidth than CPUs in the same generation do. However, as the available resources in GPUs have increased exponentially over the past decades, it has become increasingly difficult for a single program to fully utilize them. As a consequence, the industry has started supporting several resource partitioning features in order to improve the resource utilization by co-scheduling multiple programs on the same GPU die at the same time. Driven by the technological trend, this paper focuses on hierarchical resource partitioning on modern GPUs, and as an example, we utilize a combination of two different features available on recent NVIDIA GPUs in a hierarchical manner: MPS (Multi-Process Service), a finer-grained logical partitioning; and MIG (Multi-Instance GPU), a coarse-grained physical partitioning. We propose a method for comprehensively co-optimizing the setup of hierarchical partitioning and the selection of co-scheduling groups from a given set of jobs, based on reinforcement learning using their profiles. Our thorough experimental results demonstrate that our approach can successfully set up job concurrency, partitioning, and co-scheduling group selections simultaneously. This results in a maximum throughput improvement by a factor of 1.87 compared to the time-sharing scheduling.

arxiv情報

著者 Urvij Saroliya,Eishi Arima,Dai Liu,Martin Schulz
発行日 2024-05-14 16:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.DC, cs.LG パーマリンク