Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets


リンク予測 (LP) は、ナレッジ グラフ (KG) よりも重要なタスクであり、従来はエンティティ間の関係の使用と予測に焦点を当てていました。
テキストによるエンティティの説明は価値があることがすでに示されていますが、数値リテラルを組み込んだモデルでは、既存のベンチマーク データセットにわずかな改善が見られます。
このため、これらの手法の有効性と既存のベンチマーク データセットの適合性について疑問が生じます。
数値リテラルを組み込んだ LP モデルを評価する方法論を提案します。
私たちは、i) これらのモデルが数値リテラルをどの程度適切に使用しているかをよりよく理解するための新しい合成データセット、および ii) 既存のデータセットの潜在的な問題を調査するためのデータセット アブレーション戦略を提案します。


Link Prediction(LP) is an essential task over Knowledge Graphs(KGs), traditionally focussed on using and predicting the relations between entities. Textual entity descriptions have already been shown to be valuable, but models that incorporate numerical literals have shown minor improvements on existing benchmark datasets. It is unclear whether a model is actually better in using numerical literals, or better capable of utilizing the graph structure. This raises doubts about the effectiveness of these methods and about the suitability of the existing benchmark datasets. We propose a methodology to evaluate LP models that incorporate numerical literals. We propose i) a new synthetic dataset to better understand how well these models use numerical literals and ii) dataset ablations strategies to investigate potential difficulties with the existing datasets. We identify a prevalent trend: many models underutilize literal information and potentially rely on additional parameters for performance gains. Our investigation highlights the need for more extensive evaluations when releasing new models and datasets.


