要約
グラフ ニューラル ネットワーク (GNN) は、ノード分類やリンク予測などのさまざまなタスクにわたって有望な結果を実証しています。
さまざまな影響の大きいアプリケーションで目覚ましい成功を収めているにもかかわらず、リンク予測のためのメッセージ パッシングにおける 3 つの一般的な落とし穴を特定しました。
特に、普及している GNN フレームワーク (DGL や PyTorch-Geometric など) では、ターゲット エッジ (つまり、予測されるエッジ) は、トレーニング中にグラフ内のメッセージ パッシング エッジとして一貫して存在します。
その結果、オーバーフィッティングと分布シフトが発生し、どちらもターゲット エッジをテストするための一般化可能性に悪影響を及ぼします。
さらに、テスト中にテスト ターゲット エッジを除外できないと、近傍集約によって暗黙的なテスト リークが発生します。
このペーパーでは、これら 3 つの落とし穴を分析し、ターゲット エッジを含めたり除外したりした場合の、トレーニングおよびテスト フェーズ中のさまざまな程度のノードのパフォーマンスへの影響を調査します。
私たちの理論的および経験的分析は、低次数ノードがこれらの落とし穴の影響を受けやすいことを示しています。
GNN が運用システムに実装される場合、これらの落とし穴は有害な結果をもたらす可能性があります。
これらの落とし穴に体系的に対処するために、効果的かつ効率的な GNN トレーニング フレームワークである SpotTarget を提案します。
トレーニング中に、SpotTarget は低次数ノードに関する洞察を活用し、少なくとも 1 つの低次数ノードに接続されているトレーニング ターゲット エッジを除外します。
テスト中に、本番環境での GNN 使用の実際のシナリオをエミュレートし、すべてのテスト ターゲット エッジを除外します。
現実世界の多様なデータセットに対して行われた実験では、SpotTarget が GNN を大幅に強化し、スパース グラフの精度が最大 15 倍向上することが実証されました。
さらに、SpotTarget は、密なグラフ内の低次数ノードのパフォーマンスを一貫して劇的に向上させます。
要約(オリジナル)
Graph Neural Networks (GNNs) have demonstrated promising outcomes across various tasks, including node classification and link prediction. Despite their remarkable success in various high-impact applications, we have identified three common pitfalls in message passing for link prediction. Particularly, in prevalent GNN frameworks (e.g., DGL and PyTorch-Geometric), the target edges (i.e., the edges being predicted) consistently exist as message passing edges in the graph during training. Consequently, this results in overfitting and distribution shift, both of which adversely impact the generalizability to test the target edges. Additionally, during test time, the failure to exclude the test target edges leads to implicit test leakage caused by neighborhood aggregation. In this paper, we analyze these three pitfalls and investigate the impact of including or excluding target edges on the performance of nodes with varying degrees during training and test phases. Our theoretical and empirical analysis demonstrates that low-degree nodes are more susceptible to these pitfalls. These pitfalls can have detrimental consequences when GNNs are implemented in production systems. To systematically address these pitfalls, we propose SpotTarget, an effective and efficient GNN training framework. During training, SpotTarget leverages our insight regarding low-degree nodes and excludes train target edges connected to at least one low-degree node. During test time, it emulates real-world scenarios of GNN usage in production and excludes all test target edges. Our experiments conducted on diverse real-world datasets, demonstrate that SpotTarget significantly enhances GNNs, achieving up to a 15x increase in accuracy in sparse graphs. Furthermore, SpotTarget consistently and dramatically improves the performance for low-degree nodes in dense graphs.
arxiv情報
著者 | Jing Zhu,Yuhang Zhou,Vassilis N. Ioannidis,Shengyi Qian,Wei Ai,Xiang Song,Danai Koutra |
発行日 | 2023-06-01 16:56:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google