iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models


ナレッジ グラフ (KG) を自動的に構築することは、データを構造化してアクセス可能にし、ユーザーが効果的に情報を検索できるようにするために重要です。
KG は洞察、推論、推論も促進します。
名前付きエンティティの認識や関係抽出などの従来の NLP 手法は、情報検索の鍵となりますが、事前定義されたエンティティ タイプの使用や教師あり学習の必要性などの制限に直面しています。
この論文では、後処理を行わずにインクリメンタルでトピックに依存しない KG を構築する手法である iText2KG を提案します。
このプラグアンドプレイのゼロショット手法は、幅広い KG 構築シナリオに適用でき、Document Distiller、Incremental Entity Extractor、Incremental Relation Extractor、Graph Integrator and Visualization の 4 つのモジュールで構成されます。
私たちの方法は、科学論文からグラフへの変換、Web サイトからグラフへの変換、CV からグラフへの変換という 3 つのシナリオにわたって、ベースライン方法と比較して優れたパフォーマンスを示します。


Most available data is unstructured, making it challenging to access valuable information. Automatically building Knowledge Graphs (KGs) is crucial for structuring data and making it accessible, allowing users to search for information effectively. KGs also facilitate insights, inference, and reasoning. Traditional NLP methods, such as named entity recognition and relation extraction, are key in information retrieval but face limitations, including the use of predefined entity types and the need for supervised learning. Current research leverages large language models’ capabilities, such as zero- or few-shot learning. However, unresolved and semantically duplicated entities and relations still pose challenges, leading to inconsistent graphs and requiring extensive post-processing. Additionally, most approaches are topic-dependent. In this paper, we propose iText2KG, a method for incremental, topic-independent KG construction without post-processing. This plug-and-play, zero-shot method is applicable across a wide range of KG construction scenarios and comprises four modules: Document Distiller, Incremental Entity Extractor, Incremental Relation Extractor, and Graph Integrator and Visualization. Our method demonstrates superior performance compared to baseline methods across three scenarios: converting scientific papers to graphs, websites to graphs, and CVs to graphs.


著者 Yassir Lairgi,Ludovic Moncla,Rémy Cazabet,Khalid Benabdeslem,Pierre Cléau
発行日 2024-09-05 06:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク