要約
ハイ パフォーマンス コンピューティング (HPC) のパフォーマンス分析ドメインでは、表形式のデータを使用して、実行時間の予測などの回帰問題を解決します。
既存の機械学習 (ML) 手法は、サンプル間の関係を直接利用するのではなく、表形式のデータセットに与えられた特徴間の相関関係を利用します。
さらに、生の特徴からの高品質の埋め込みによって下流の予測モデルの忠実度が向上するため、既存の手法は広範な特徴エンジニアリングと前処理ステップに依存しており、時間と手作業がかかります。
これら 2 つのギャップを埋めるために、表形式のパフォーマンス データをグラフに変換し、特徴とサンプル間の複雑な関係を捉えるグラフ ニューラル ネットワーク ベース (GNN) 技術の進歩を活用するという新しいアイデアを提案します。
ソーシャル ネットワークなどの他の ML アプリケーション ドメインとは対照的に、グラフは表示されません。
代わりに、それを構築する必要があります。
このギャップに対処するために、ノードがサンプルを表し、サンプル内の特徴間の類似性に基づいてエッジが繰り返し自動的に推測されるグラフ構築方法を提案します。
私たちは、GNN から生成されたエンベディングの有効性を、他の最先端の表現学習手法と比較して、単純なフィードフォワード ニューラル ネットワークでも回帰タスクをどの程度うまく実行できるかに基づいて評価します。
私たちの評価では、各データセットに最大 25% のランダムな欠損値がある場合でも、私たちの方法が一般的に使用されるグラフやディープ ニューラル ネットワーク (DNN) ベースのアプローチよりも優れたパフォーマンスを示し、DNN ベースラインと比較して MSE 損失が最大 61.67% および 78.56% 改善されることが実証されました。
それぞれ HPC データセットと機械学習データセット用です。
要約(オリジナル)
The performance analytics domain in High Performance Computing (HPC) uses tabular data to solve regression problems, such as predicting the execution time. Existing Machine Learning (ML) techniques leverage the correlations among features given tabular datasets, not leveraging the relationships between samples directly. Moreover, since high-quality embeddings from raw features improve the fidelity of the downstream predictive models, existing methods rely on extensive feature engineering and pre-processing steps, costing time and manual effort. To fill these two gaps, we propose a novel idea of transforming tabular performance data into graphs to leverage the advancement of Graph Neural Network-based (GNN) techniques in capturing complex relationships between features and samples. In contrast to other ML application domains, such as social networks, the graph is not given; instead, we need to build it. To address this gap, we propose graph-building methods where nodes represent samples, and the edges are automatically inferred iteratively based on the similarity between the features in the samples. We evaluate the effectiveness of the generated embeddings from GNNs based on how well they make even a simple feed-forward neural network perform for regression tasks compared to other state-of-the-art representation learning techniques. Our evaluation demonstrates that even with up to 25% random missing values for each dataset, our method outperforms commonly used graph and Deep Neural Network (DNN)-based approaches and achieves up to 61.67% & 78.56% improvement in MSE loss over the DNN baseline respectively for HPC dataset and Machine Learning Datasets.
arxiv情報
著者 | Tarek Ramadan,Ankur Lahiry,Tanzima Z. Islam |
発行日 | 2024-01-19 16:34:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google