A critical look at the evaluation of GNNs under heterophily: Are we really making progress?

要約

ノードの分類は古典的なグラフ機械学習タスクであり、最近グラフニューラルネットワーク(GNN)が強力な成果を上げている。しかし、標準的なGNNは、同類グラフ、すなわち、エッジが同じクラスのノードを接続する傾向があるグラフに対してのみうまく機能すると考えられている。この性質を持たないグラフは異類グラフと呼ばれ、このようなグラフで強力な性能を得るためには、一般的に特殊な手法が必要であると考えられている。本研究では、この仮定に挑戦する。まず、ヘテロフィリーに特化したモデルの評価に使われる標準的なデータセットには重大な欠点があり、それを使って得られた結果は信頼できないことを示す。これらの欠点のうち最も重大なものは、リス(Squirrel)とカメレオン(Chameleon)というデータセットに多数の重複ノードが存在することであり、これは訓練データとテストデータの漏洩につながる。重複ノードの除去がこれらのデータセットにおけるGNN性能に強く影響することを示す。次に、異質性の下でのGNNの性能を評価するためのより良いベンチマークとして役立つと考えられる、様々な性質を持つ異質なグラフのセットを提案する。我々は、標準的なGNNがこれらのヘテロフィラスグラフ上で強力な結果を達成し、ほとんど常に特殊化モデルを上回ることを示す。我々のデータセットと実験を再現するコードは、https://github.com/yandex-research/heterophilous-graphs。

要約(オリジナル)

Node classification is a classical graph machine learning task on which Graph Neural Networks (GNNs) have recently achieved strong results. However, it is often believed that standard GNNs only work well for homophilous graphs, i.e., graphs where edges tend to connect nodes of the same class. Graphs without this property are called heterophilous, and it is typically assumed that specialized methods are required to achieve strong performance on such graphs. In this work, we challenge this assumption. First, we show that the standard datasets used for evaluating heterophily-specific models have serious drawbacks, making results obtained by using them unreliable. The most significant of these drawbacks is the presence of a large number of duplicate nodes in the datasets Squirrel and Chameleon, which leads to train-test data leakage. We show that removing duplicate nodes strongly affects GNN performance on these datasets. Then, we propose a set of heterophilous graphs of varying properties that we believe can serve as a better benchmark for evaluating the performance of GNNs under heterophily. We show that standard GNNs achieve strong results on these heterophilous graphs, almost always outperforming specialized models. Our datasets and the code for reproducing our experiments are available at https://github.com/yandex-research/heterophilous-graphs

arxiv情報

著者 Oleg Platonov,Denis Kuznedelev,Michael Diskin,Artem Babenko,Liudmila Prokhorenkova
発行日 2024-03-02 21:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク