Language Models as Knowledge Embeddings

要約

ナレッジ エンベディング (KE) は、エンティティと関係を連続ベクトル空間に埋め込むことによってナレッジ グラフ (KG) を表します。
既存の手法は主に構造ベースまたは記述ベースです。
構造ベースのメソッドは、KG の固有の構造を保存する表現を学習します。
構造情報が限られている現実世界の KG では、豊富なロングテール エンティティをうまく表現できません。
説明ベースの方法では、テキスト情報と言語モデルを活用します。
この方向における従来のアプローチは、構造ベースのアプローチをほとんど上回るパフォーマンスを示さず、高価なネガティブ サンプリングや制限的な記述要求などの問題に悩まされています。
この論文では、ロングテールエンティティの豊かな表現と事前記述ベースの手法の問題解決の両方を目的として、言語モデルを採用して知識埋め込みを導出するLMKEを提案します。
トレーニングと評価の効率を向上させるために、対照的な学習フレームワークを使用して記述ベースの KE 学習を定式化します。
実験結果は、LMKE が、特にロングテール エンティティに対して、リンク予測とトリプル分類の KE ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Knowledge embeddings (KE) represent a knowledge graph (KG) by embedding entities and relations into continuous vector spaces. Existing methods are mainly structure-based or description-based. Structure-based methods learn representations that preserve the inherent structure of KGs. They cannot well represent abundant long-tail entities in real-world KGs with limited structural information. Description-based methods leverage textual information and language models. Prior approaches in this direction barely outperform structure-based ones, and suffer from problems like expensive negative sampling and restrictive description demand. In this paper, we propose LMKE, which adopts Language Models to derive Knowledge Embeddings, aiming at both enriching representations of long-tail entities and solving problems of prior description-based methods. We formulate description-based KE learning with a contrastive learning framework to improve efficiency in training and evaluation. Experimental results show that LMKE achieves state-of-the-art performance on KE benchmarks of link prediction and triple classification, especially for long-tail entities.

arxiv情報

著者 Xintao Wang,Qianyu He,Jiaqing Liang,Yanghua Xiao
発行日 2023-06-29 07:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク