要約
表形式の機械学習は、産業と科学にとって重要な分野です。
このフィールドでは、テーブル行は通常、独立したデータ サンプルとして扱われますが、それらの間の関係に関する追加情報が利用できる場合があり、予測パフォーマンスを向上させるために使用できます。
このような情報はグラフを使用して自然にモデル化できるため、表形式の機械学習はグラフ機械学習手法の恩恵を受ける可能性があります。
ただし、グラフ機械学習モデルは通常、同種のノード特徴を持つデータセットで評価され、表形式のデータセットに存在する数値特徴とカテゴリ特徴の異種混合とはほとんど共通点がありません。
したがって、表形式の機械学習研究で使用されるデータとグラフ機械学習の研究で使用されるデータの間には重大な違いがあり、グラフ モデルを表形式データにどのようにうまく転送できるかを理解することはできません。
このギャップを埋めるために、異種の表形式ノードの特徴と現実的な予測タスクを備えた多様なグラフの新しいベンチマークを提案します。
私たちはこのベンチマークを使用して、これまで文献で見落とされていた単純な方法を含む、膨大なモデルのセットを評価します。
私たちの実験では、グラフ ニューラル ネットワーク (GNN) が実際に表形式データの予測パフォーマンスに向上をもたらすことがよくあることを示していますが、標準的な表形式モデルも、単純な特徴前処理を使用することでグラフ データを操作できるように適応させることができ、場合によっては、GNN と競合したり、さらには
GNN を上回るパフォーマンスを発揮します。
私たちは実証研究に基づいて、表形式とグラフの両方の機械学習分野の研究者と実践者に洞察を提供します。
要約(オリジナル)
Tabular machine learning is an important field for industry and science. In this field, table rows are usually treated as independent data samples, but additional information about relations between them is sometimes available and can be used to improve predictive performance. Such information can be naturally modeled with a graph, thus tabular machine learning may benefit from graph machine learning methods. However, graph machine learning models are typically evaluated on datasets with homogeneous node features, which have little in common with heterogeneous mixtures of numerical and categorical features present in tabular datasets. Thus, there is a critical difference between the data used in tabular and graph machine learning studies, which does not allow one to understand how successfully graph models can be transferred to tabular data. To bridge this gap, we propose a new benchmark of diverse graphs with heterogeneous tabular node features and realistic prediction tasks. We use this benchmark to evaluate a vast set of models, including simple methods previously overlooked in the literature. Our experiments show that graph neural networks (GNNs) can indeed often bring gains in predictive performance for tabular data, but standard tabular models also can be adapted to work with graph data by using simple feature preprocessing, which sometimes enables them to compete with and even outperform GNNs. Based on our empirical study, we provide insights for researchers and practitioners in both tabular and graph machine learning fields.
arxiv情報
著者 | Gleb Bazhenov,Oleg Platonov,Liudmila Prokhorenkova |
発行日 | 2024-09-26 15:26:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google