Can LLMs be Good Graph Judger for Knowledge Graph Construction?

要約

実際のシナリオでは、情報検索 (IR) システムから取得されるデータのほとんどは構造化されていません。
自然言語文を構造化されたナレッジ グラフ (KG) に変換することは、依然として重要な課題です。
構築された KG の品質は、GraphRAG システムや推奨システムなどの一部の KG 依存ドメインのパフォーマンスにも影響を与える可能性があります。
最近、大規模言語モデル (LLM) は、幅広い自然言語処理タスクに対処する優れた機能を実証しました。
ただし、LLM を利用して構造化された KG を生成するタスクに対処する場合には、依然として課題があります。
そして、既存のKG工法に関して3つの限界があることを確認しました。
(1)現実世界の文書には大量の情報と過剰なノイズが存在し、その結果、乱雑な情報が抽出される可能性があります。
(2) ネイティブ LLM は、一部のドメイン固有のドキュメントから正確な知識を効果的に抽出するのに苦労します。
(3)LLM を KG を構築するための教師なし手法として直接利用する場合、幻覚現象を見逃すことはできません。
この論文では、前述の課題に対処するためのナレッジ グラフ構築フレームワークである GraphJudger を提案します。
私たちの方法には、エンティティ中心の反復テキストノイズ除去、知識を意識した命令調整、およびグラフ判断という 3 つの革新的なモジュールをそれぞれ導入しています。
私たちは、グラフ判定者として機能する LLM の能力を利用することを目指しています。これは、KG 建設問題の予測者としての役割だけを上回る能力です。
2 つの一般的なテキスト グラフ ペア データセットと 1 つのドメイン固有のテキスト グラフ ペア データセットに対して実行された実験は、ベースライン手法と比較して優れたパフォーマンスを示しました。
提案した手法のコードは https://github.com/hhy-huang/GraphJudger から入手できます。

要約(オリジナル)

In real-world scenarios, most of the data obtained from information retrieval (IR) system is unstructured. Converting natural language sentences into structured Knowledge Graphs (KGs) remains a critical challenge. The quality of constructed KGs may also impact the performance of some KG-dependent domains like GraphRAG systems and recommendation systems. Recently, Large Language Models (LLMs) have demonstrated impressive capabilities in addressing a wide range of natural language processing tasks. However, there are still challenges when utilizing LLMs to address the task of generating structured KGs. And we have identified three limitations with respect to existing KG construction methods. (1)There is a large amount of information and excessive noise in real-world documents, which could result in extracting messy information. (2)Native LLMs struggle to effectively extract accuracy knowledge from some domain-specific documents. (3)Hallucinations phenomenon cannot be overlooked when utilizing LLMs directly as an unsupervised method for constructing KGs. In this paper, we propose GraphJudger, a knowledge graph construction framework to address the aforementioned challenges. We introduce three innovative modules in our method, which are entity-centric iterative text denoising, knowledge aware instruction tuning and graph judgement, respectively. We seek to utilize the capacity of LLMs to function as a graph judger, a capability superior to their role only as a predictor for KG construction problems. Experiments conducted on two general text-graph pair datasets and one domain-specific text-graph pair dataset show superior performances compared to baseline methods. The code of our proposed method is available at https://github.com/hhy-huang/GraphJudger.

arxiv情報

著者 Haoyu Huang,Chong Chen,Conghui He,Yang Li,Jiawei Jiang,Wentao Zhang
発行日 2024-11-26 12:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク