Universal Knowledge Graph Embeddings

要約

知識グラフ埋め込みのアプローチは様々なものが開発されている。その多くは、知識グラフの構造をリンク予測の設定内で学習することで埋め込み値を得ている。その結果、埋め込みは単一の知識グラフの構造のみを反映し、異なる知識グラフの埋め込みは整列されず、例えば、最近傍探索によって知識グラフ間で類似の実体を見つけるためには利用できない。しかし、エンティティの曖昧性解消のような知識グラフ埋め込みアプリケーションでは、よりグローバルな表現、すなわち複数のソース間で有効な表現が必要となる。我々は、相互にリンクされた大規模な知識ソースから普遍的な知識グラフ埋め込みを学習することを提案する。この目的のために、我々はowl:sameAs関係に基づいて大規模な知識グラフを融合し、全てのエンティティが一意なIDで表現されるようにする。DBpediaとWikidataに基づいて普遍的な埋め込みを計算し、約1億8000万エンティティ、1万5000関係、12億トリプルの埋め込みを得た。我々の計算した埋め込みは、グラフ基盤モデルの新しい分野をサポートすると信じている。さらに、埋め込みデータをサービスとして提供するための便利なAPIを開発する。リンク予測に関する実験から、ユニバーサル知識グラフ埋め込みは、単一の知識グラフで計算された埋め込みと比較して、より良いセマンティクスを包含することが示唆される。再現性のために、ソースコードとデータセットをオープンアクセスで提供する。

要約(オリジナル)

A variety of knowledge graph embedding approaches have been developed. Most of them obtain embeddings by learning the structure of the knowledge graph within a link prediction setting. As a result, the embeddings reflect only the structure of a single knowledge graph, and embeddings for different knowledge graphs are not aligned, e.g., they cannot be used to find similar entities across knowledge graphs via nearest neighbor search. However, knowledge graph embedding applications such as entity disambiguation require a more global representation, i.e., a representation that is valid across multiple sources. We propose to learn universal knowledge graph embeddings from large-scale interlinked knowledge sources. To this end, we fuse large knowledge graphs based on the owl:sameAs relation such that every entity is represented by a unique identity. We instantiate our idea by computing universal embeddings based on DBpedia and Wikidata yielding embeddings for about 180 million entities, 15 thousand relations, and 1.2 billion triples. We believe our computed embeddings will support the emerging field of graph foundation models. Moreover, we develop a convenient API to provide embeddings as a service. Experiments on link prediction suggest that universal knowledge graph embeddings encode better semantics compared to embeddings computed on a single knowledge graph. For reproducibility purposes, we provide our source code and datasets open access.

arxiv情報

著者 N’Dah Jean Kouagou,Caglar Demir,Hamada M. Zahera,Adrian Wilke,Stefan Heindorf,Jiayi Li,Axel-Cyrille Ngonga Ngomo
発行日 2024-07-05 12:35:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク