Refining Wikidata Taxonomy using Large Language Models

要約

ウィキデータはその協調的な性質により、インスタンスとクラス間のあいまいさ、一部の分類パスの不正確さ、サイクルの存在、クラス間の高レベルの冗長性など、再発する問題を伴う複雑な分類法を持つことが知られています。
この分類を手動でクリーンアップする作業は時間がかかり、間違いや主観的な決定が発生しやすくなります。
私たちは、大規模言語モデル (LLM) とグラフ マイニング技術の組み合わせを使用して自動的にクリーンアップされたウィキデータ分類の新しいバージョンである WiKC を紹介します。
リンクの切断やクラスの結合などの分類上の操作は、オープンソース LLM のゼロショット プロンプトを利用して実行されます。
洗練された分類法の品質は、後者のエンティティ タイピングのタスクに関して、内因性と外因性の両方の観点から評価され、WiKC の実用的な関心を示しています。

要約(オリジナル)

Due to its collaborative nature, Wikidata is known to have a complex taxonomy, with recurrent issues like the ambiguity between instances and classes, the inaccuracy of some taxonomic paths, the presence of cycles, and the high level of redundancy across classes. Manual efforts to clean up this taxonomy are time-consuming and prone to errors or subjective decisions. We present WiKC, a new version of Wikidata taxonomy cleaned automatically using a combination of Large Language Models (LLMs) and graph mining techniques. Operations on the taxonomy, such as cutting links or merging classes, are performed with the help of zero-shot prompting on an open-source LLM. The quality of the refined taxonomy is evaluated from both intrinsic and extrinsic perspectives, on a task of entity typing for the latter, showing the practical interest of WiKC.

arxiv情報

著者 Yiwen Peng,Thomas Bonald,Mehwish Alam
発行日 2024-09-06 06:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク