要約
知識グラフ(KG)は人工知能の分野では非常に重要であり、質問応答(QA)のような下流のタスクで広く使われている。知識グラフの構築には通常、専門家の多大な労力を必要とする。近年、大規模言語モデル(LLM)が知識グラフ構築(KGC)に利用されている。しかし、ほとんどの既存のアプローチは、個々の文や文書から知識トリプレットを抽出する局所的な視点に焦点を当て、グローバルなKGに知識を結合するための融合プロセスを欠いている。本研究では、フリーテキストからのゼロショットKGCフレームワークであるGraphusionを紹介する。ステップ1では、最も関連性の高いエンティティを含む最終的なKGを導くために、トピックモデリングを用いてシードエンティティのリストを抽出する。ステップ2では、LLMを用いて候補トリプレットの抽出を行う。ステップ3では、抽出された知識のグローバルなビューを提供する新しい融合モジュールを設計し、エンティティのマージ、競合の解決、新しいトリプレットの発見を組み込む。その結果、Graphusionはエンティティ抽出と関係認識において、それぞれ3点満点中2.92点と2.37点を達成した。さらに、Graphusionを自然言語処理(NLP)ドメインにどのように適用できるかを紹介し、教育シナリオで検証する。具体的には、6つのタスクと合計1,200のQAペアからなる、エキスパートが検証した新しいQAベンチマークであるTutorQAを紹介する。Graphusionによって構築されたKGを使用することで、ベンチマークを大幅に改善することができ、例えば、サブグラフの完成において9.2%の精度向上を達成した。
要約(オリジナル)
Knowledge Graphs (KGs) are crucial in the field of artificial intelligence and are widely used in downstream tasks, such as question-answering (QA). The construction of KGs typically requires significant effort from domain experts. Large Language Models (LLMs) have recently been used for Knowledge Graph Construction (KGC). However, most existing approaches focus on a local perspective, extracting knowledge triplets from individual sentences or documents, missing a fusion process to combine the knowledge in a global KG. This work introduces Graphusion, a zero-shot KGC framework from free text. It contains three steps: in Step 1, we extract a list of seed entities using topic modeling to guide the final KG includes the most relevant entities; in Step 2, we conduct candidate triplet extraction using LLMs; in Step 3, we design the novel fusion module that provides a global view of the extracted knowledge, incorporating entity merging, conflict resolution, and novel triplet discovery. Results show that Graphusion achieves scores of 2.92 and 2.37 out of 3 for entity extraction and relation recognition, respectively. Moreover, we showcase how Graphusion could be applied to the Natural Language Processing (NLP) domain and validate it in an educational scenario. Specifically, we introduce TutorQA, a new expert-verified benchmark for QA, comprising six tasks and a total of 1,200 QA pairs. Using the Graphusion-constructed KG, we achieve a significant improvement on the benchmark, for example, a 9.2% accuracy improvement on sub-graph completion.
arxiv情報
著者 | Rui Yang,Boming Yang,Aosong Feng,Sixun Ouyang,Moritz Blum,Tianwei She,Yuang Jiang,Freddy Lecue,Jinghui Lu,Irene Li |
発行日 | 2025-02-03 09:48:26+00:00 |
arxivサイト | arxiv_id(pdf) |