Entity-Augmented Neuroscience Knowledge Retrieval Using Ontology and Semantic Understanding Capability of LLM

要約

神経科学の研究論文は、膨大な知識の宝庫です。既存の情報を正確に検索し、この膨大な文献から新たな知見を発見することは、この分野を発展させるために不可欠である。しかし、知識が複数の情報源に分散している場合、現在の最先端の検索手法では必要な情報を抽出するのに苦労することが多い。知識グラフ(KG)は、複数のソースからの知識を統合しリンクさせることができるが、神経科学におけるKG構築のための既存の方法は、多くの場合、ラベル付きデータに依存し、領域の専門知識を必要とする。神経科学のような専門的な領域において、大規模なラベル付きデータを取得することは大きな課題である。本研究では、大規模言語モデル(LLM)、神経科学オントロジー、テキスト埋め込みを利用し、ラベル付けされていない大規模神経科学研究コーパスからKGを構築する新しい手法を提案する。知識グラフを構築するために、LLMによって特定された神経科学テキストセグメントの意味的関連性を分析する。また、KGから知識を抽出するために、エンティティを増強した情報検索アルゴリズムを導入する。提案するアプローチを評価するためにいくつかの実験を行い、その結果、我々の手法がラベル付けされていない神経科学研究コーパスからの知識発見を大幅に向上させることが実証された。エンティティ抽出において0.84のF1スコアを達成し、KGから得られた知識は54%以上の質問に対する回答を改善する。

要約(オリジナル)

Neuroscience research publications encompass a vast wealth of knowledge. Accurately retrieving existing information and discovering new insights from this extensive literature is essential for advancing the field. However, when knowledge is dispersed across multiple sources, current state-of-the-art retrieval methods often struggle to extract the necessary information. A knowledge graph (KG) can integrate and link knowledge from multiple sources, but existing methods for constructing KGs in neuroscience often rely on labeled data and require domain expertise. Acquiring large-scale, labeled data for a specialized area like neuroscience presents significant challenges. This work proposes novel methods for constructing KG from unlabeled large-scale neuroscience research corpus utilizing large language models (LLM), neuroscience ontology, and text embeddings. We analyze the semantic relevance of neuroscience text segments identified by LLM for building the knowledge graph. We also introduce an entity-augmented information retrieval algorithm to extract knowledge from the KG. Several experiments were conducted to evaluate the proposed approaches, and the results demonstrate that our methods significantly enhance knowledge discovery from the unlabeled neuroscience research corpus. It achieves an F1 score of 0.84 for entity extraction, and the knowledge obtained from the KG improves answers to over 54% of the questions.

arxiv情報

著者 Pralaypati Ta,Sriram Venkatesaperumal,Keerthi Ram,Mohanasankar Sivaprakasam
発行日 2025-06-03 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク