Unsupervised Robust Cross-Lingual Entity Alignment via Neighbor Triple Matching with Entity and Relation Texts

要約

クロスリンガルエンティティアライメント(EA)は、異なる言語間の複数の知識グラフ(KG)の統合を可能にし、多様で包括的な知識へのシームレスなアクセスをユーザに提供する。既存の手法は、ほとんどが教師あり手法であり、ラベル付けされたエンティティペアの取得に課題がある。これに対処するため、最近の研究では、自己教師ありおよび教師なしフレームワークにシフトしている。(2)同型の仮定:原文と訳文のグラフが同型であると仮定しているため、ノイズが発生しやすく、アライメント精度が低下する。本論文では、ERAlignを提案する。ERAlignは教師なしかつロバストなクロスリンガルEAパイプラインであり、関係やエンティティの意味的なテキスト特徴を利用したネイバー・トリプルマッチング戦略により、エンティティレベルと関係レベルのアライメントを同時に行う。このパイプラインの洗練ステップは、近傍トリプルマッチングに基づいてエンティティレベルと関係レベルのアライメントを融合させることで、結果を反復的に向上させる。追加の検証ステップでは、エンティティの近傍トリプルを線形化されたテキストとして検証する。このAlign-then-Verifyパイプラインはアライメント結果を厳密に評価し、エンティティのテキスト特徴にノイズがある場合でも、ほぼ完璧なアライメントを達成する。我々の広範な実験により、ERAlignのロバスト性と汎用性がEAタスクの精度と有効性を向上させ、知識指向のアプリケーションに大きく貢献することが実証された。

要約(オリジナル)

Cross-lingual entity alignment (EA) enables the integration of multiple knowledge graphs (KGs) across different languages, providing users with seamless access to diverse and comprehensive knowledge. Existing methods, mostly supervised, face challenges in obtaining labeled entity pairs. To address this, recent studies have shifted towards self-supervised and unsupervised frameworks. Despite their effectiveness, these approaches have limitations: (1) Relation passing: mainly focusing on the entity while neglecting the semantic information of relations, (2) Isomorphic assumption: assuming isomorphism between source and target graphs, which leads to noise and reduced alignment accuracy, and (3) Noise vulnerability: susceptible to noise in the textual features, especially when encountering inconsistent translations or Out-of-Vocabulary (OOV) problems. In this paper, we propose ERAlign, an unsupervised and robust cross-lingual EA pipeline that jointly performs Entity-level and Relation-level Alignment by neighbor triple matching strategy using semantic textual features of relations and entities. Its refinement step iteratively enhances results by fusing entity-level and relation-level alignments based on neighbor triple matching. The additional verification step examines the entities’ neighbor triples as the linearized text. This Align-then-Verify pipeline rigorously assesses alignment results, achieving near-perfect alignment even in the presence of noisy textual features of entities. Our extensive experiments demonstrate that the robustness and general applicability of ERAlign improved the accuracy and effectiveness of EA tasks, contributing significantly to knowledge-oriented applications.

arxiv情報

著者 Soojin Yoon,Sungho Ko,Tongyoung Kim,SeongKu Kang,Jinyoung Yeo,Dongha Lee
発行日 2025-01-03 05:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク