要約
言語間のエンティティ アラインメント (EA) により、異なる言語にわたる複数のナレッジ グラフ (KG) の統合が可能になり、ユーザーが多様で包括的な知識にシームレスにアクセスできるようになります。
既存の方法はほとんどが教師ありであり、ラベル付きエンティティのペアを取得する際に課題に直面しています。
これに対処するために、最近の研究は自己教師ありフレームワークと教師なしフレームワークに移行しています。
有効性にもかかわらず、これらのアプローチには限界があります。(1) 関係の受け渡し: 主にエンティティに焦点を当て、関係の意味情報を無視します。 (2) 同型仮定: ソース グラフとターゲット グラフ間の同型を仮定するため、ノイズが発生し、位置合わせ精度が低下します。
(3) ノイズの脆弱性: 特に一貫性のない翻訳や語彙不足 (OOV) の問題が発生した場合、テキストの特徴におけるノイズの影響を受けやすくなります。
この論文では、関係とエンティティの意味論的なテキスト特徴を使用して、近隣トリプル マッチング戦略によるエンティティ レベルとリレーション レベルのアライメントを共同で実行する、教師なしで堅牢なクロスリンガル EA パイプラインである ERAlign を提案します。
その改良ステップでは、近隣トリプル マッチングに基づいてエンティティ レベルとリレーション レベルのアラインメントを融合することで、結果を繰り返し強化します。
追加の検証ステップでは、エンティティの隣接トリプルを線形化されたテキストとして検査します。
この Align-then-Verify パイプラインは、位置合わせ結果を厳密に評価し、エンティティのノイズの多いテキスト特徴が存在する場合でも、ほぼ完璧な位置合わせを実現します。
私たちの広範な実験により、ERAlign の堅牢性と汎用性が EA タスクの精度と有効性を向上させ、知識指向アプリケーションに大きく貢献することが実証されました。
要約(オリジナル)
Cross-lingual entity alignment (EA) enables the integration of multiple knowledge graphs (KGs) across different languages, providing users with seamless access to diverse and comprehensive knowledge. Existing methods, mostly supervised, face challenges in obtaining labeled entity pairs. To address this, recent studies have shifted towards self-supervised and unsupervised frameworks. Despite their effectiveness, these approaches have limitations: (1) Relation passing: mainly focusing on the entity while neglecting the semantic information of relations, (2) Isomorphic assumption: assuming isomorphism between source and target graphs, which leads to noise and reduced alignment accuracy, and (3) Noise vulnerability: susceptible to noise in the textual features, especially when encountering inconsistent translations or Out-Of-Vocabulary (OOV) problems. In this paper, we propose ERAlign, an unsupervised and robust cross-lingual EA pipeline that jointly performs Entity-level and Relation-level Alignment by neighbor triple matching strategy using semantic textual features of relations and entities. Its refinement step iteratively enhances results by fusing entity-level and relation-level alignments based on neighbor triple matching. The additional verification step examines the entities’ neighbor triples as the linearized text. This Align-then-Verify pipeline rigorously assesses alignment results, achieving near-perfect alignment even in the presence of noisy textual features of entities. Our extensive experiments demonstrate that the robustness and general applicability of ERAlign improved the accuracy and effectiveness of EA tasks, contributing significantly to knowledge-oriented applications.
arxiv情報
著者 | Soojin Yoon,Sungho Ko,Tongyoung Kim,SeongKu Kang,Jinyoung Yeo,Dongha Lee |
発行日 | 2024-08-15 14:52:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google