A Benchmark for Semi-Inductive Link Prediction in Knowledge Graphs

要約

ナレッジ グラフ (KG) における半帰納的リンク予測 (LP) は、コンテキスト情報に基づいて、これまで見えなかった新しいエンティティの事実を予測するタスクです。
原理的には、モデルを最初から再トレーニングすることで新しいエンティティを統合できますが、再トレーニングに費用がかかり、新しいエンティティが頻繁に発生する可能性がある大規模な KG では、そのようなアプローチは現実的ではありません。
この論文では、半誘導 LP モデルを評価するための大規模ベンチマークを提案し、説明します。
このベンチマークは Wikidata5M に基づいており、これを拡張しています。変換、k ショット、および 0 ショット LP タスクが提供されます。それぞれの利用可能な情報は、(i) KG 構造のみ、(ii) テキストによる言及を含む、および (iii) 詳細な情報まで異なります。
エンティティの説明。
我々は、最近のアプローチに関する小規模な研究について報告し、すべての実験を通じて、半誘導性 LP のパフォーマンスがロングテール エンティティの伝達性のパフォーマンスとは程遠いことを発見しました。
このベンチマークは、半帰納的 LP モデルにコンテキストとテキスト情報を統合するためのさらなる研究のためのテストベッドを提供します。

要約(オリジナル)

Semi-inductive link prediction (LP) in knowledge graphs (KG) is the task of predicting facts for new, previously unseen entities based on context information. Although new entities can be integrated by retraining the model from scratch in principle, such an approach is infeasible for large-scale KGs, where retraining is expensive and new entities may arise frequently. In this paper, we propose and describe a large-scale benchmark to evaluate semi-inductive LP models. The benchmark is based on and extends Wikidata5M: It provides transductive, k-shot, and 0-shot LP tasks, each varying the available information from (i) only KG structure, to (ii) including textual mentions, and (iii) detailed descriptions of the entities. We report on a small study of recent approaches and found that semi-inductive LP performance is far from transductive performance on long-tail entities throughout all experiments. The benchmark provides a test bed for further research into integrating context and textual information in semi-inductive LP models.

arxiv情報

著者 Adrian Kochsiek,Rainer Gemulla
発行日 2023-10-18 12:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク