Rethinking GNN-based Entity Alignment on Heterogeneous Knowledge Graphs: New Datasets and A New Method


タイトル: 異種性知識グラフに基づくGNNによるエンティティアラインメントの再考:新しいデータセットと新しい方法論

– 知識グラフ(KG)アプリケーションの発展により、様々なソースから抽出された異種性KG間のエンティティアラインメント(EA)への需要が高まっている。
– GNNは、構造情報を捕捉する能力が印象的であるため、最近ではEAタスクで広く採用されている。
– しかし、既存の一般的なEAデータセットの単純化された設定は、現実世界のシナリオからは遠く、最近の方法の進歩の完全な理解を妨げている。
– 本論文では、現実的な設定でEA方法のパフォーマンスを研究するために、異種性KG(HHKG)のアラインメントに焦点を当てます。このため、リアルワールドEAシナリオに近い2つの新しいHHKGデータセットを提案し、これらのデータセットを使用して過去の代表的なEA方法を評価し、GNNベースのEA方法の進歩に関する興味深い発見を明らかにしました。
– 構造情報はHHKGのアラインメントにおいては難しいが、まだ有効であることがわかったため、これは既存のEA方法、特にGNNベースの方法のパフォーマンスが低下する原因になっている。
– 最後に、エンティティ名、構造、時間情報を包括的に利用するSimple-HHEAという単純で効果的な方法を紹介し、HHKGデータセットにおいて以前のモデルよりも優れた結果を示しました。


The development of knowledge graph (KG) applications has led to a rising need for entity alignment (EA) between heterogeneous KGs that are extracted from various sources. Recently, graph neural networks (GNNs) have been widely adopted in EA tasks due to GNNs’ impressive ability to capture structure information. However, we have observed that the oversimplified settings of the existing common EA datasets are distant from real-world scenarios, which obstructs a full understanding of the advancements achieved by recent methods. This phenomenon makes us ponder: Do existing GNN-based EA methods really make great progress? In this paper, to study the performance of EA methods in realistic settings, we focus on the alignment of highly heterogeneous KGs (HHKGs) (e.g., event KGs and general KGs) which are different with regard to the scale and structure, and share fewer overlapping entities. First, we sweep the unreasonable settings, and propose two new HHKG datasets that closely mimic real-world EA scenarios. Then, based on the proposed datasets, we conduct extensive experiments to evaluate previous representative EA methods, and reveal interesting findings about the progress of GNN-based EA methods. We find that the structural information becomes difficult to exploit but still valuable in aligning HHKGs. This phenomenon leads to inferior performance of existing EA methods, especially GNN-based methods. Our findings shed light on the potential problems resulting from an impulsive application of GNN-based methods as a panacea for all EA datasets. Finally, we introduce a simple but effective method: Simple-HHEA, which comprehensively utilizes entity name, structure, and temporal information. Experiment results show Simple-HHEA outperforms previous models on HHKG datasets. The datasets and source code will be available at


著者 Xuhui Jiang,Chengjin Xu,Yinghan Shen,Fenglong Su,Yuanzhuo Wang,Fei Sun,Zixuan Li,Huawei Shen
発行日 2023-04-07 04:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク