要約
ナレッジ グラフ (KG) は、構造化された推論と意味の理解を必要とするタスクに優れた検索拡張生成システム (RAG) の形式である GraphRAG の機能に不可欠です。
ただし、GraphRAG の KG を作成することは、従来の方法の精度とスケーラビリティの制限により依然として大きな課題です。
このペーパーでは、GPT-4、LLaMA 2 (13B)、BERT などの大規模言語モデル (LLM) を活用して、従来のパイプラインをバイパスして非構造化データから直接 KG を生成する新しいアプローチを紹介します。
精度、再現率、F1 スコア、グラフ編集距離、意味的類似性などの指標を使用して、高品質の KG を生成するモデルの能力を評価します。
結果は、GPT-4 が優れたセマンティック忠実度と構造精度を実現し、LLaMA 2 が軽量でドメイン固有のグラフに優れ、BERT がエンティティ関係モデリングの課題に対する洞察を提供することを示しています。
この研究は、LLM が KG の作成を合理化し、現実世界のアプリケーションの GraphRAG へのアクセシビリティを強化しながら、将来の進歩のための基礎を築く可能性を強調しています。
要約(オリジナル)
Knowledge Graphs (KGs) are essential for the functionality of GraphRAGs, a form of Retrieval-Augmented Generative Systems (RAGs) that excel in tasks requiring structured reasoning and semantic understanding. However, creating KGs for GraphRAGs remains a significant challenge due to accuracy and scalability limitations of traditional methods. This paper introduces a novel approach leveraging large language models (LLMs) like GPT-4, LLaMA 2 (13B), and BERT to generate KGs directly from unstructured data, bypassing traditional pipelines. Using metrics such as Precision, Recall, F1-Score, Graph Edit Distance, and Semantic Similarity, we evaluate the models’ ability to generate high-quality KGs. Results demonstrate that GPT-4 achieves superior semantic fidelity and structural accuracy, LLaMA 2 excels in lightweight, domain-specific graphs, and BERT provides insights into challenges in entity-relationship modeling. This study underscores the potential of LLMs to streamline KG creation and enhance GraphRAG accessibility for real-world applications, while setting a foundation for future advancements.
arxiv情報
著者 | Ahan Bhatt,Nandan Vaghela,Kush Dudhia |
発行日 | 2024-12-10 11:05:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google