AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database

要約

数学知識グラフ(kg)は、数学の分野内で構造化された方法で知識を提示します。
自然言語を使用して数学kgを構築することは、不可欠だが挑戦的な作業です。
既存の作品には2つの主要な制限があります。最初に、それらはコーパスの完全性によって制約されており、多くの場合、不完全な知識を破棄または手動で補完します。
第二に、彼らは通常、多様な知識ソースの統合を完全に自動化することができません。
このホワイトペーパーでは、自動更新が可能な高品質、幅広い、多次元数学kgであるAutomathkgを提案します。
AutomAthKGは、数学を定義、定理、および問題の実体で構成される広大な指示グラフと見なし、参照関係をエッジとしています。
ProofWiki、教科書、Arxiv論文、およびTheoremqaの知識を統合し、データ増強のためのコンテキスト学習を介して、大規模な言語モデル(LLMS)との関係を強化します。
同様のエンティティを検索するために、ベクトルデータベースであるMathVDは、Stbertを使用して2つの設計された埋め込み戦略を通じて構築されます。
自動的に更新するために、2つのメカニズムが提案されています。
知識の完了メカニズムのために、Math LLMはAutomathKGと対話するために開発され、不足している証明または解決策を提供します。
ナレッジフュージョンメカニズムのために、MATHVDは同様のエンティティを取得するために使用され、LLMは候補者とマージするか、新しいエンティティとして追加するかを決定するために使用されます。
幅広い実験は、5つのベースラインとMath LLMの堅牢な数学的推論能力と比較して、MathVDの優れた到達可能性クエリ結果を含む、AutomAthKGシステムの高度なパフォーマンスと幅広い適用性を示しています。

要約(オリジナル)

A mathematical knowledge graph (KG) presents knowledge within the field of mathematics in a structured manner. Constructing a math KG using natural language is an essential but challenging task. There are two major limitations of existing works: first, they are constrained by corpus completeness, often discarding or manually supplementing incomplete knowledge; second, they typically fail to fully automate the integration of diverse knowledge sources. This paper proposes AutoMathKG, a high-quality, wide-coverage, and multi-dimensional math KG capable of automatic updates. AutoMathKG regards mathematics as a vast directed graph composed of Definition, Theorem, and Problem entities, with their reference relationships as edges. It integrates knowledge from ProofWiki, textbooks, arXiv papers, and TheoremQA, enhancing entities and relationships with large language models (LLMs) via in-context learning for data augmentation. To search for similar entities, MathVD, a vector database, is built through two designed embedding strategies using SBERT. To automatically update, two mechanisms are proposed. For knowledge completion mechanism, Math LLM is developed to interact with AutoMathKG, providing missing proofs or solutions. For knowledge fusion mechanism, MathVD is used to retrieve similar entities, and LLM is used to determine whether to merge with a candidate or add as a new entity. A wide range of experiments demonstrate the advanced performance and broad applicability of the AutoMathKG system, including superior reachability query results in MathVD compared to five baselines and robust mathematical reasoning capability in Math LLM.

arxiv情報

著者 Rong Bian,Yu Geng,Zijian Yang,Bing Cheng
発行日 2025-05-19 17:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク