GPTKB: Building Very Large Knowledge Bases from Language Models

要約

一般ドメインのナレッジ ベース (KB)、特に Wikidata、Yago、DBpedia の「ビッグ 3」は、多くのインテリジェント アプリケーションのバックボーンです。
これら 3 つは着実に発展してきましたが、包括的な KB 構築全体には新たな試みはほとんどありませんでした。
この作業では、大規模言語モデル (LLM) から大規模な汎用ドメイン KB を完全に構築することを提案します。
エンティティ認識、エンティティとプロパティの正規化、分類法の構築に関して生じる特定の課題を強調しながら、LLM からの大規模な KB 構築の実現可能性を実証します。
プロトタイプとして、GPT-4o-mini を使用して、以前の KBC プロジェクトの 100 分の 1 のコストで、290 万以上のエンティティに対する 1 億 500 万のトリプルを含む GPTKB を構築しました。
私たちの研究は 2 つの分野にとって画期的なものです。NLP に関しては、LLM の知識 (または信念) に対する \textit{建設的な} 洞察を初めて提供します。
セマンティック Web に関しては、一般ドメインの KB 構築という長年の課題に対する新しい方法を示しています。
GPTKB には https://gptkb.org からアクセスできます。

要約(オリジナル)

General-domain knowledge bases (KB), in particular the ‘big three’ — Wikidata, Yago and DBpedia — are the backbone of many intelligent applications. While these three have seen steady development, comprehensive KB construction at large has seen few fresh attempts. In this work, we propose to build a large general-domain KB entirely from a large language model (LLM). We demonstrate the feasibility of large-scale KB construction from LLMs, while highlighting specific challenges arising around entity recognition, entity and property canonicalization, and taxonomy construction. As a prototype, we use GPT-4o-mini to construct GPTKB, which contains 105 million triples for more than 2.9 million entities, at a cost 100x less than previous KBC projects. Our work is a landmark for two fields: For NLP, for the first time, it provides \textit{constructive} insights into the knowledge (or beliefs) of LLMs. For the Semantic Web, it shows novel ways forward for the long-standing challenge of general-domain KB construction. GPTKB is accessible at https://gptkb.org.

arxiv情報

著者 Yujia Hu,Shrestha Ghosh,Tuan-Phong Nugyen,Simon Razniewski
発行日 2024-11-07 17:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB パーマリンク