Are Heterophily-Specific GNNs and Homophily Metrics Really Effective? Evaluation Pitfalls and New Benchmarks


過去 10 年間にわたり、グラフ ニューラル ネットワーク (GNN) は、リレーショナル データを使用した機械学習タスクで大きな成功を収めてきました。
ただし、最近の研究では、ヘテロフィリティーにより、特にノードレベルのタスクにおいて、GNN のパフォーマンスが大幅に低下する可能性があることが判明しました。
異好性特異的な GNN の有効性を検証するために、多数の異好性ベンチマーク データセットが提案されており、人々がこれらの悪性データセットを認識できるようにさまざまな同好性指標が設計されています。
このペーパーでは、次の 3 つの最も深刻な落とし穴を指摘します。1) ハイパーパラメータ調整の欠如。
2) 実際の困難な異好性データセットに対するモデル評価が不十分。
3) 合成グラフ上の均一性メトリクスの定量的評価ベンチマークが欠落しています。
これらの課題を克服するために、私たちはまず、最も広く使用されている $27$ のベンチマーク データセットでベースライン モデルをトレーニングして微調整し、悪性、良性、曖昧な異好性データセットの 3 つの異なるグループに分類し、実際に困難なタスクのサブセットを特定します。
次に、異好性データセットのさまざまなグループに対して微調整されたハイパーパラメータを使用して、$10$ の異好性特異的最先端 (SOTA) GNN を再評価します。
最後に、3 つの異なる生成アプローチを使用して、合成グラフ上で $11$ の人気の同型性メトリクスを評価します。


Over the past decade, Graph Neural Networks (GNNs) have achieved great success on machine learning tasks with relational data. However, recent studies have found that heterophily can cause significant performance degradation of GNNs, especially on node-level tasks. Numerous heterophilic benchmark datasets have been put forward to validate the efficacy of heterophily-specific GNNs and various homophily metrics have been designed to help people recognize these malignant datasets. Nevertheless, there still exist multiple pitfalls that severely hinder the proper evaluation of new models and metrics. In this paper, we point out three most serious pitfalls: 1) a lack of hyperparameter tuning; 2) insufficient model evaluation on the real challenging heterophilic datasets; 3) missing quantitative evaluation benchmark for homophily metrics on synthetic graphs. To overcome these challenges, we first train and fine-tune baseline models on $27$ most widely used benchmark datasets, categorize them into three distinct groups: malignant, benign and ambiguous heterophilic datasets, and identify the real challenging subsets of tasks. To our best knowledge, we are the first to propose such taxonomy. Then, we re-evaluate $10$ heterophily-specific state-of-the-arts (SOTA) GNNs with fine-tuned hyperparameters on different groups of heterophilic datasets. Based on the model performance, we reassess their effectiveness on addressing heterophily challenge. At last, we evaluate $11$ popular homophily metrics on synthetic graphs with three different generation approaches. To compare the metrics strictly, we propose the first quantitative evaluation method based on Fr\’echet distance.


著者 Sitao Luan,Qincheng Lu,Chenqing Hua,Xinyu Wang,Jiaqi Zhu,Xiao-Wen Chang,Guy Wolf,Jian Tang
発行日 2024-09-09 16:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク