要約
事前定義されたスキーマの必要性を排除する完全自律知識グラフ構造のフレームワークであるAutoschemakgを提示します。
当社のシステムは、大規模な言語モデルを活用して、知識トリプルを同時に抽出し、テキストから直接包括的なスキーマを誘導し、エンティティとイベントの両方をモデル化しながら、概念化を使用してインスタンスをセマンティックカテゴリに整理します。
5,000万を超えるドキュメントを処理すると、9億ノードと59億のエッジを持つ知識グラフのファミリーであるAtlas(自動トリプルリンクおよびスキーマ誘導)を構築します。
このアプローチは、マルチホップQAタスクの最先端のベースラインを上回り、LLMの事実性を高めます。
特に、我々のスキーマ誘導は、手動介入がゼロの人間が作成したスキーマと95 \%のセマンティックアラインメントを達成し、動的に誘導されたスキーマを備えた10億個の知識グラフが大規模な言語モデルのパラメトリックな知識を効果的に補完できることを示しています。
要約(オリジナル)
We present AutoSchemaKG, a framework for fully autonomous knowledge graph construction that eliminates the need for predefined schemas. Our system leverages large language models to simultaneously extract knowledge triples and induce comprehensive schemas directly from text, modeling both entities and events while employing conceptualization to organize instances into semantic categories. Processing over 50 million documents, we construct ATLAS (Automated Triple Linking And Schema induction), a family of knowledge graphs with 900+ million nodes and 5.9 billion edges. This approach outperforms state-of-the-art baselines on multi-hop QA tasks and enhances LLM factuality. Notably, our schema induction achieves 95\% semantic alignment with human-crafted schemas with zero manual intervention, demonstrating that billion-scale knowledge graphs with dynamically induced schemas can effectively complement parametric knowledge in large language models.
arxiv情報
著者 | Jiaxin Bai,Wei Fan,Qi Hu,Qing Zong,Chunyang Li,Hong Ting Tsang,Hongyu Luo,Yauwai Yim,Haoyu Huang,Xiao Zhou,Feng Qin,Tianshi Zheng,Xi Peng,Xin Yao,Huiwen Yang,Leijie Wu,Yi Ji,Gong Zhang,Renhai Chen,Yangqiu Song |
発行日 | 2025-05-29 16:34:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google