要約
エンティティアラインメント(EA)は、同じ実世界のアイデンティティを指すさまざまな知識グラフ(KG)にわたって同等のエンティティペアを識別することを目的としています。
トレーニングに提供された種子アライメントの不足を回避するために、最近のEAモデルは、モデルトレーニングの種子アライメントに対して高い信頼性を持って予測される整理されていないエンティティペアを繰り返し追加するために、擬似標識戦略を利用しています。
ただし、擬似標識中の確認バイアスの悪影響はほとんど見過ごされているため、エンティティのアライメントパフォーマンスが妨げられています。
擬似標識ベースのエンティティアライメントの確認バイアスと体系的に闘うために、擬似標識エラーを明示的に排除してエンティティアライメントの精度を高めるためのエンティティアライメント(UPL-EA)の統一された擬似ラベルフレームワークを提案します。
UPL-EAは、2つの補完的なコンポーネントで構成されています。(1)最適な輸送(OT)ベースの擬似標識は、エンティティの対応を決定し、2つのkgの誤った一致を減らすための効果的な手段として離散OTモデリングを使用します。
効果的な基準は、1対1の対応を満たす擬似標識アライメントを推測するために導き出されます。
(2)並列擬似ラベルアンサンミングは、個別に並行してトレーニングされた複数のモデル上の予測を組み合わせることにより、擬似標識アライメントを洗練します。
その後、集まった擬似標識アライメントは、シードアライメントを強化して、アライメント推論のためのその後のモデルトレーニングを強化するために使用されます。
擬似標識エラーの排除におけるUPL-EAの有効性は、理論的にサポートされ、実験的に検証されています。
当社の広範な結果と詳細な分析は、15の競合ベースラインを超えるUPL-EAの優位性と、エンティティアライメントの一般的な擬似標識フレームワークとしての有用性を示しています。
要約(オリジナル)
Entity alignment (EA) aims at identifying equivalent entity pairs across different knowledge graphs (KGs) that refer to the same real-world identity. To circumvent the shortage of seed alignments provided for training, recent EA models utilize pseudo-labeling strategies to iteratively add unaligned entity pairs predicted with high confidence to the seed alignments for model training. However, the adverse impact of confirmation bias during pseudo-labeling has been largely overlooked, thus hindering entity alignment performance. To systematically combat confirmation bias for pseudo-labeling-based entity alignment, we propose a Unified Pseudo-Labeling framework for Entity Alignment (UPL-EA) that explicitly eliminates pseudo-labeling errors to boost the accuracy of entity alignment. UPL-EA consists of two complementary components: (1) Optimal Transport (OT)-based pseudo-labeling uses discrete OT modeling as an effective means to determine entity correspondences and reduce erroneous matches across two KGs. An effective criterion is derived to infer pseudo-labeled alignments that satisfy one-to-one correspondences; (2) Parallel pseudo-label ensembling refines pseudo-labeled alignments by combining predictions over multiple models independently trained in parallel. The ensembled pseudo-labeled alignments are thereafter used to augment seed alignments to reinforce subsequent model training for alignment inference. The effectiveness of UPL-EA in eliminating pseudo-labeling errors is both theoretically supported and experimentally validated. Our extensive results and in-depth analyses demonstrate the superiority of UPL-EA over 15 competitive baselines and its utility as a general pseudo-labeling framework for entity alignment.
arxiv情報
著者 | Qijie Ding,Jie Yin,Daokun Zhang,Junbin Gao |
発行日 | 2025-05-08 10:46:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google