要約
情報抽出の進歩により、大規模なナレッジ グラフ (Yago、Wikidata、Google KG など) の自動構築が可能になり、セマンティック検索やデータ分析などの多くのアプリケーションで広く使用されています。
ただし、KG は半自動で構築されるため、不完全であることがよくあります。
KG から頻繁に発生するパターンを抽出し、それらをルールにキャストすることに関するルール学習手法は、潜在的に欠落している事実を予測するために適用できます。
このプロセスにおける重要なステップは、ルールのランキングです。
ルールのランク付けは、非常に不完全または偏った KG (有名人に関する事実を主に保存する KG など) では特に困難です。この場合、偏ったルールがデータに最もよく適合し、ルールの信頼度などの標準的な統計指標に基づいて上位にランク付けされる可能性があるためです。
この問題に対処するために、以前の研究では、元の KG だけでなく、KG 埋め込みモデルによって予測された事実にも依存してルールをランク付けすることが提案されました。
同時に、最近の言語モデル (LM) の台頭により、いくつかの研究では、LM が KG を完了するための代替手段として使用できると主張しています。
この研究では、LM の活用がルール学習システムの品質向上にどの程度役立つかを検証することが目標です。
要約(オリジナル)
Advances in information extraction have enabled the automatic construction of large knowledge graphs (e.g., Yago, Wikidata or Google KG), which are widely used in many applications like semantic search or data analytics. However, due to their semi-automatic construction, KGs are often incomplete. Rule learning methods, concerned with the extraction of frequent patterns from KGs and casting them into rules, can be applied to predict potentially missing facts. A crucial step in this process is rule ranking. Ranking of rules is especially challenging over highly incomplete or biased KGs (e.g., KGs predominantly storing facts about famous people), as in this case biased rules might fit the data best and be ranked at the top based on standard statistical metrics like rule confidence. To address this issue, prior works proposed to rank rules not only relying on the original KG but also facts predicted by a KG embedding model. At the same time, with the recent rise of Language Models (LMs), several works have claimed that LMs can be used as alternative means for KG completion. In this work, our goal is to verify to which extent the exploitation of LMs is helpful for improving the quality of rule learning systems.
arxiv情報
著者 | Zihang Peng,Daria Stepanova,Vinh Thinh Ho,Heike Adel,Alessandra Russo,Simon Ott |
発行日 | 2024-09-12 09:27:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google