Evaluating Language Models for Knowledge Base Completion

要約

構造化されたナレッジ ベース (KB) は、多くのインテリジェント アプリケーションの基盤ですが、不完全なことで有名です。
言語モデル (LM) は教師なし知識ベース補完 (KBC) のために最近提案されましたが、最初の結果は有望であるにもかかわらず、その適合性に関する疑問は未解決のままです。
既存の評価は、一般的なテーマについてのみ評価したり、KB から既存の事実を抽出したりするため、不十分であることがよくあります。
この作業では、新しい、より挑戦的なベンチマーク データセットと、LM の KBC の可能性を現実的に評価するために調整された方法論を紹介します。
自動評価のために、ウィキデータの偏りのないランダムなサンプルを提供する WD-KNOWN と呼ばれるデータセットをキュレートし、390 万以上の事実を含んでいます。
2 番目のステップでは、まだ KB に含まれていない予測に対して人間による評価を実行します。これによってのみ、既存の KB に追加された価値について真の洞察が得られるからです。
私たちの重要な発見は、以前のベンチマークのデータセット概念の偏りが、KBC の LM パフォーマンスの体系的な過大評価につながるということです。
ただし、私たちの結果は、LMの強力な領域も明らかにしています。
たとえば、nativeLanguage のリレーションは 21 倍 (260k から 5.8M)、usedLanguage は 2.1 倍 (2.1M から 6.6M) の 82% の精度で Wikidata の大幅な補完を実行できます。
) 82% の精度で、citizenOf は 90% の精度で ~0.3 倍 (4.2M から 5.3M) です。
さらに、LM は驚くほど強力な一般化機能を備えていることがわかります。ほとんどの事実が LM トレーニングで直接観察されなかった関係でも、予測の質は高くなる可能性があります。

要約(オリジナル)

Structured knowledge bases (KBs) are a foundation of many intelligent applications, yet are notoriously incomplete. Language models (LMs) have recently been proposed for unsupervised knowledge base completion (KBC), yet, despite encouraging initial results, questions regarding their suitability remain open. Existing evaluations often fall short because they only evaluate on popular subjects, or sample already existing facts from KBs. In this work, we introduce a novel, more challenging benchmark dataset, and a methodology tailored for a realistic assessment of the KBC potential of LMs. For automated assessment, we curate a dataset called WD-KNOWN, which provides an unbiased random sample of Wikidata, containing over 3.9 million facts. In a second step, we perform a human evaluation on predictions that are not yet in the KB, as only this provides real insights into the added value over existing KBs. Our key finding is that biases in dataset conception of previous benchmarks lead to a systematic overestimate of LM performance for KBC. However, our results also reveal strong areas of LMs. We could, for example, perform a significant completion of Wikidata on the relations nativeLanguage, by a factor of ~21 (from 260k to 5.8M) at 82% precision, usedLanguage, by a factor of ~2.1 (from 2.1M to 6.6M) at 82% precision, and citizenOf by a factor of ~0.3 (from 4.2M to 5.3M) at 90% precision. Moreover, we find that LMs possess surprisingly strong generalization capabilities: even on relations where most facts were not directly observed in LM training, prediction quality can be high.

arxiv情報

著者 Blerta Veseli,Sneha Singhania,Simon Razniewski,Gerhard Weikum
発行日 2023-03-20 13:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク