要約
ナレッジグラフ埋め込み(KGE)モデルは、知識グラフの完了のために広く研究されていますが、その評価は非現実的なベンチマークによって制約されたままです。
標準的な評価メトリックは、閉鎖された世界の仮定に依存しており、これは、リンク予測の基本的な目標と矛盾するトリプルの欠落を正しく予測するためにモデルを罰します。
これらのメトリックは、多くの場合、精度評価を単一の値に圧縮し、モデルの特定の長所と短所を不明瞭にします。
一般的な評価プロトコルであるリンク予測は、値を予測するエンティティのプロパティが事前に知られているという非現実的な仮定の下で動作します。
プロパティ予測、エンティティペアのランキング、トリプル分類などの代替プロトコルは、これらの制限の一部に対応していますが、それらは十分に活用されていません。
さらに、一般的に使用されるデータセットは、実際のデータを反映するには障害があるか、小さすぎます。
n ary関係のモデル化やドメイン全体のモデルパフォーマンスの変動を調査するために不可欠なメディエーターノードの役割を調べる研究はほとんどありません。
このペーパーでは、大規模なデータセットFB-CVT-REVおよびFB+CVT-REVで4つの代表的なKGEモデルの包括的な評価を実施します。
私たちの分析では、相対的なランキングと絶対的なメトリックの両方で、小規模および大規模なデータセット間の実質的なパフォーマンスの変動、n-ary関係が二層化されている場合のモデル能力の体系的な過大評価、および現在の評価プロトコルと指標の基本的な制限など、重要な洞察を明らかにしています。
要約(オリジナル)
Knowledge graph embedding (KGE) models are extensively studied for knowledge graph completion, yet their evaluation remains constrained by unrealistic benchmarks. Standard evaluation metrics rely on the closed-world assumption, which penalizes models for correctly predicting missing triples, contradicting the fundamental goals of link prediction. These metrics often compress accuracy assessment into a single value, obscuring models’ specific strengths and weaknesses. The prevailing evaluation protocol, link prediction, operates under the unrealistic assumption that an entity’s properties, for which values are to be predicted, are known in advance. While alternative protocols such as property prediction, entity-pair ranking, and triple classification address some of these limitations, they remain underutilized. Moreover, commonly used datasets are either faulty or too small to reflect real-world data. Few studies examine the role of mediator nodes, which are essential for modeling n-ary relationships, or investigate model performance variation across domains. This paper conducts a comprehensive evaluation of four representative KGE models on large-scale datasets FB-CVT-REV and FB+CVT-REV. Our analysis reveals critical insights, including substantial performance variations between small and large datasets, both in relative rankings and absolute metrics, systematic overestimation of model capabilities when n-ary relations are binarized, and fundamental limitations in current evaluation protocols and metrics.
arxiv情報
著者 | Nasim Shirvani-Mahdavi,Farahnaz Akrami,Chengkai Li |
発行日 | 2025-06-10 16:38:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google