Knowledge Base Completion for Long-Tail Entities

要約

ウィキデータなどのナレッジ ベース (KB) には、その驚異的な規模にもかかわらず、依然として大きなギャップが存在します。
言語モデル (LM) は、これらのギャップを埋めるためのソースとして提案されています。
しかし、これまでの研究では、LM が豊富にカバーする著名なエンティティに焦点を当てており、ロングテール エンティティの重要なケースは無視されていました。
この論文では、特にロングテール エンティティに関する事実に特化した、LM ベースの KB 補完のための新しい方法を紹介します。
この方法では、候補の取得と候補の検証と曖昧さの解消という 2 つの段階で 2 つの異なる LM を利用します。
私たちの手法とさまざまなベースラインを評価するために、ウィキデータに基づいた MALT と呼ばれる新しいデータセットを導入します。
私たちの手法は F1 のすべてのベースラインを上回り、特に再現率が大幅に向上しました。

要約(オリジナル)

Despite their impressive scale, knowledge bases (KBs), such as Wikidata, still contain significant gaps. Language models (LMs) have been proposed as a source for filling these gaps. However, prior works have focused on prominent entities with rich coverage by LMs, neglecting the crucial case of long-tail entities. In this paper, we present a novel method for LM-based-KB completion that is specifically geared for facts about long-tail entities. The method leverages two different LMs in two stages: for candidate retrieval and for candidate verification and disambiguation. To evaluate our method and various baselines, we introduce a novel dataset, called MALT, rooted in Wikidata. Our method outperforms all baselines in F1, with major gains especially in recall.

arxiv情報

著者 Lihu Chen,Simon Razniewski,Gerhard Weikum
発行日 2023-06-30 08:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク