Characterizing and Understanding HGNN Training on GPUs

要約

ヘテロジニアス グラフ ニューラル ネットワーク (HGNN) は、異種グラフ データの優れた表現能力により、推奨システムや医療分析などの多くの重要な現実世界の領域で広く採用されています。
実際に適用する前に、広範なトレーニングを通じて特定のタスクに合わせた最適な HGNN モデル パラメーターを特定することは、時間とコストがかかるプロセスです。
HGNN トレーニングの効率を高めるには、トレーニング プロセス内の実行セマンティクスとパターンを特徴付けて分析し、パフォーマンスのボトルネックを特定することが不可欠です。
この研究では、シングル GPU とマルチ GPU 分散トレーニングを含む 2 つの主流の HGNN トレーニング シナリオの詳細な定量化と分析を実行します。
特性評価の結果に基づいて、さまざまな HGNN トレーニング シナリオにおけるパフォーマンスのボトルネックとその根本的な原因を明らかにし、ソフトウェアとハ​​ードウェアの両方の観点から最適化ガイドラインを提供します。

要約(オリジナル)

Owing to their remarkable representation capabilities for heterogeneous graph data, Heterogeneous Graph Neural Networks (HGNNs) have been widely adopted in many critical real-world domains such as recommendation systems and medical analysis. Prior to their practical application, identifying the optimal HGNN model parameters tailored to specific tasks through extensive training is a time-consuming and costly process. To enhance the efficiency of HGNN training, it is essential to characterize and analyze the execution semantics and patterns within the training process to identify performance bottlenecks. In this study, we conduct an in-depth quantification and analysis of two mainstream HGNN training scenarios, including single-GPU and multi-GPU distributed training. Based on the characterization results, we disclose the performance bottlenecks and their underlying causes in different HGNN training scenarios and provide optimization guidelines from both software and hardware perspectives.

arxiv情報

著者 Dengke Han,Mingyu Yan,Xiaochun Ye,Dongrui Fan,Ninghui Sun
発行日 2024-07-16 14:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, cs.PF パーマリンク