iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models

要約

入手可能なデータのほとんどは構造化されていないため、貴重な情報にアクセスすることが困難になります。
ナレッジ グラフ (KG) を自動的に構築することは、データを構造化してアクセス可能にし、ユーザーが効果的に情報を検索できるようにするために重要です。
KG は洞察、推論、推論も促進します。
名前付きエンティティの認識や関係抽出などの従来の NLP 手法は、情報検索の鍵となりますが、事前定義されたエンティティ タイプの使用や教師あり学習の必要性などの制限に直面しています。
現在の研究では、ゼロまたは数ショット学習などの大規模言語モデルの機能を活用しています。
ただし、未解決で意味的に重複したエンティティとリレーションは依然として課題を抱えており、一貫性のないグラフが生成され、大規模な後処理が必要になります。
さらに、ほとんどのアプローチはトピックに依存します。
この論文では、後処理を行わずにインクリメンタルでトピックに依存しない KG を構築する手法である iText2KG を提案します。
このプラグアンドプレイのゼロショット手法は、幅広い KG 構築シナリオに適用でき、Document Distiller、Incremental Entity Extractor、Incremental Relation Extractor、Graph Integrator and Visualization の 4 つのモジュールで構成されます。
私たちの方法は、科学論文からグラフへの変換、Web サイトからグラフへの変換、CV からグラフへの変換という 3 つのシナリオにわたって、ベースライン方法と比較して優れたパフォーマンスを示します。

要約(オリジナル)

Most available data is unstructured, making it challenging to access valuable information. Automatically building Knowledge Graphs (KGs) is crucial for structuring data and making it accessible, allowing users to search for information effectively. KGs also facilitate insights, inference, and reasoning. Traditional NLP methods, such as named entity recognition and relation extraction, are key in information retrieval but face limitations, including the use of predefined entity types and the need for supervised learning. Current research leverages large language models’ capabilities, such as zero- or few-shot learning. However, unresolved and semantically duplicated entities and relations still pose challenges, leading to inconsistent graphs and requiring extensive post-processing. Additionally, most approaches are topic-dependent. In this paper, we propose iText2KG, a method for incremental, topic-independent KG construction without post-processing. This plug-and-play, zero-shot method is applicable across a wide range of KG construction scenarios and comprises four modules: Document Distiller, Incremental Entity Extractor, Incremental Relation Extractor, and Graph Integrator and Visualization. Our method demonstrates superior performance compared to baseline methods across three scenarios: converting scientific papers to graphs, websites to graphs, and CVs to graphs.

arxiv情報

著者 Yassir Lairgi,Ludovic Moncla,Rémy Cazabet,Khalid Benabdeslem,Pierre Cléau
発行日 2024-09-05 06:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク