Can LLMs be Good Graph Judge for Knowledge Graph Construction?

要約

実際のシナリオでは、情報検索(IR)システムから取得したデータのほとんどは構造化されていません。
自然言語文を構造化された知識グラフ(kg)に変換することは依然として重要な課題です。
既存のKG構造方法に関して3つの制限を特定しました。(1)実際のドキュメントには大量のノイズがある可能性があり、乱雑な情報を抽出する可能性があります。
(2)ナイーブLLMは通常、いくつかのドメイン固有のドキュメントから不正確な知識を抽出します。
(3)LLMを直接使用してKGを構築する場合、幻覚現象を見落とすことはできません。
この論文では、前述の課題に対処するためのKG構造フレームワークである\ textBf {graphjudge}を提案します。
このフレームワークでは、ドキュメント内のノイズ情報を排除するためのエンティティ中心の戦略を設計しました。
そして、生成されたKGの品質を最終的に向上させるために、グラフ裁判官としてLLMを微調整しました。
2つの一般的および1つのドメイン固有のテキストグラフペアデータセットで実施された実験は、強力な一般化能力を備えたさまざまなベースライン方法に対する最先端のパフォーマンスを示しています。
私たちのコードは、\ href {https://github.com/hhy-huang/graphjudge} {https://github.com/hhy-huang/graphjudge}で入手できます。

要約(オリジナル)

In real-world scenarios, most of the data obtained from the information retrieval (IR) system is unstructured. Converting natural language sentences into structured Knowledge Graphs (KGs) remains a critical challenge. We identified three limitations with respect to existing KG construction methods: (1) There could be a large amount of noise in real-world documents, which could result in extracting messy information. (2) Naive LLMs usually extract inaccurate knowledge from some domain-specific documents. (3) Hallucination phenomenon cannot be overlooked when directly using LLMs to construct KGs. In this paper, we propose \textbf{GraphJudge}, a KG construction framework to address the aforementioned challenges. In this framework, we designed an entity-centric strategy to eliminate the noise information in the documents. And we fine-tuned a LLM as a graph judge to finally enhance the quality of generated KGs. Experiments conducted on two general and one domain-specific text-graph pair datasets demonstrate state-of-the-art performance against various baseline methods with strong generalization abilities. Our code is available at \href{https://github.com/hhy-huang/GraphJudge}{https://github.com/hhy-huang/GraphJudge}.

arxiv情報

著者 Haoyu Huang,Chong Chen,Zeang Sheng,Yang Li,Wentao Zhang
発行日 2025-05-20 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク