要約
本研究では、グラフ・ニューラル・ネットワーク(GNN)のアンサンブル学習を、一般的な半教師付き設定の下で研究する。アンサンブル学習は、複数の弱い学習者の出力を組み合わせることで、従来の機械学習の精度と頑健性を向上させることに優れている。しかし、異なるGNNモデルを統合するために同様のアイデアを採用することは、2つの理由から困難である。第一に、GNNは推論能力が低いことで有名であるため、素朴に複数のGNNモデルを組み立てると推論効率が悪化する。第二に、GNNモデルが少数のラベル付きノードで訓練された場合、その性能は制限される。この場合、ほとんどの基本モデル、すなわちGNNが誤った予測を行う可能性があるため、多数決などの素朴なアンサンブルアプローチは最適ではない可能性がある。このため、本稿では、ラベル付きノードとラベルなしノードの両方を活用することで、学習可能な方法で複数のGNNを組み立てる効率的なアンサンブル学習器–E2GNN–を提案する。具体的には、まず与えられたデータシナリオに対して、ラベル付きノードに従って異なるGNNモデルを事前学習する。次に、ラベル推論のためにそれらの出力を直接結合する代わりに、ラベル付きノードとラベルなしノードの両方でそれらの予測を模倣する単純な多層パーセプトロン–MLPモデルを訓練する。そして、ラベルのないノードや新しいノードのラベルを推論するために、統合MLPモデルを配置します。異なるGNNモデルからのラベル無しノードの予測は間違っている可能性があるため、MLPの性能を高めるために、間違って予測されたノードを効果的にフィルタリングする強化識別器を開発する。これにより、GNNアンサンブルの推論問題に取り組み、アンサンブル学習の利点である性能向上を維持するための原理的アプローチを提案する。様々なGNNバックボーンと8つのベンチマークデータセットを用いた、帰納的設定と帰納的設定の両方にわたる包括的な実験により、E2GNNの優位性が実証された。
要約(オリジナル)
This work studies ensemble learning for graph neural networks (GNNs) under the popular semi-supervised setting. Ensemble learning has shown superiority in improving the accuracy and robustness of traditional machine learning by combining the outputs of multiple weak learners. However, adopting a similar idea to integrate different GNN models is challenging because of two reasons. First, GNN is notorious for its poor inference ability, so naively assembling multiple GNN models would deteriorate the inference efficiency. Second, when GNN models are trained with few labeled nodes, their performance are limited. In this case, the vanilla ensemble approach, e.g., majority vote, may be sub-optimal since most base models, i.e., GNNs, may make the wrong predictions. To this end, in this paper, we propose an efficient ensemble learner–E2GNN to assemble multiple GNNs in a learnable way by leveraging both labeled and unlabeled nodes. Specifically, we first pre-train different GNN models on a given data scenario according to the labeled nodes. Next, instead of directly combing their outputs for label inference, we train a simple multi-layer perceptron–MLP model to mimic their predictions on both labeled and unlabeled nodes. Then the unified MLP model is deployed to infer labels for unlabeled or new nodes. Since the predictions of unlabeled nodes from different GNN models may be incorrect, we develop a reinforced discriminator to effectively filter out those wrongly predicted nodes to boost the performance of MLP. By doing this, we suggest a principled approach to tackle the inference issues of GNN ensembles and maintain the merit of ensemble learning: improved performance. Comprehensive experiments over both transductive and inductive settings, across different GNN backbones and 8 benchmark datasets, demonstrate the superiority of E2GNN.
arxiv情報
著者 | Xin Zhang,Daochen Zha,Qiaoyu Tan |
発行日 | 2024-05-06 12:11:46+00:00 |
arxivサイト | arxiv_id(pdf) |