Schema First! Learn Versatile Knowledge Graph Embeddings by Capturing Semantics with MASCHInE

要約

ナレッジ グラフ埋め込みモデル (KGEM) は、近年かなりの注目を集めています。
これらのモデルは、ナレッジ グラフ エンティティと関係のベクトル表現、別名ナレッジ グラフ エンベディング (KGE) を学習します。
汎用性の高い KGE を学習すると、幅広いタスクに役立つため望ましいです。
ただし、KGEM は通常、特定のタスク用にトレーニングされるため、その埋め込みはタスクに依存します。
並行して、KGEM が実際に基礎となるエンティティと関係の意味論的表現を作成する (たとえば、類似したエンティティを異なるエンティティよりも近くに投影する) という広く普及した仮定に疑問が投げかけられています。
この研究では、プロトグラフ (スキーマベースの情報を活用する KG の小さな変更バージョン) を生成するためのヒューリスティックを設計します。
学習されたプロトグラフベースの埋め込みは、KG のセマンティクスをカプセル化することを目的としており、KGE の学習に活用でき、結果的にセマンティクスもより適切にキャプチャできます。
さまざまな評価ベンチマークに関する広範な実験により、このアプローチの健全性が実証されています。このアプローチは、Modular and Agnostic SCHEma-based Integration of protograph Embeddings (MASCHInE) と呼ばれています。
特に、MASCHInE は、エンティティのクラスタリングやノード分類タスクのパフォーマンスが大幅に向上する、より汎用性の高い KGE の生成に役立ちます。
リンク予測の場合、MASCHInE を使用してもランクベースのパフォーマンスにはほとんど影響しませんが、意味的に有効な予測の数が増加します。

要約(オリジナル)

Knowledge graph embedding models (KGEMs) have gained considerable traction in recent years. These models learn a vector representation of knowledge graph entities and relations, a.k.a. knowledge graph embeddings (KGEs). Learning versatile KGEs is desirable as it makes them useful for a broad range of tasks. However, KGEMs are usually trained for a specific task, which makes their embeddings task-dependent. In parallel, the widespread assumption that KGEMs actually create a semantic representation of the underlying entities and relations (e.g., project similar entities closer than dissimilar ones) has been challenged. In this work, we design heuristics for generating protographs — small, modified versions of a KG that leverage schema-based information. The learnt protograph-based embeddings are meant to encapsulate the semantics of a KG, and can be leveraged in learning KGEs that, in turn, also better capture semantics. Extensive experiments on various evaluation benchmarks demonstrate the soundness of this approach, which we call Modular and Agnostic SCHema-based Integration of protograph Embeddings (MASCHInE). In particular, MASCHInE helps produce more versatile KGEs that yield substantially better performance for entity clustering and node classification tasks. For link prediction, using MASCHInE has little impact on rank-based performance but increases the number of semantically valid predictions.

arxiv情報

著者 Nicolas Hubert,Heiko Paulheim,Pierre Monnin,Armelle Brun,Davy Monticolo
発行日 2023-06-06 13:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク