From Large Language Models to Knowledge Graphs for Biomarker Discovery in Cancer


人工知能 (AI) にとって難しいシナリオは、生物医学データ (テキスト、画像、オミクス、臨床など) を使用して、がん性疾患の診断と治療の推奨事項を提供することです。
がん、薬剤、遺伝子、タンパク質、およびそれらのメカニズムに関するデータと知識は、構造化された情報源 (知識ベース (KB)) と非構造化された情報源 (科学論文など) にまたがって分散されています。
大規模なナレッジ グラフ (KG) は、これらのデータを統合し、その後、意味的に相互に関連するエンティティおよび関係に関する事実を抽出することによって構築できます。
このような KG により、探索と質問応答 (QA) が可能になるだけでなく、ドメインの専門家が新しい知識を推測できるようになります。
ただし、基盤となるデータ資産とセマンティック テクノロジの理解が不足しているため、大規模な KG の探索とクエリは、ドメイン以外のユーザーにとって面倒な作業です。
この論文では、がん固有のバイオマーカーの発見と対話型 QA を活用するドメイン KG を開発します。
このため、遺伝子と疾患の関係を検証するための意味論的推論を可能にするために、OncoNet Ontology (ONO) と呼ばれるドメイン オントロジーが開発されました。
次に、BioBERT および SciBERT ベースの情報抽出 (IE) 手法を使用して、ONO、管理された語彙、科学論文からの追加の生物医学概念を調和させることによって、KG を強化します。
さらに、生物医学領域は進化しており、最新の知見を採用せずに新しい知見が古い知見に置き換わることが多いため、AI システムが診断と治療を提供する際に概念のずれを示す可能性が高くなります。
したがって、固有表現認識モデルでは認識されなかった可能性のある、より最近の記事と KB に基づいて、大規模言語モデル (LLM) を使用して KG を微調整しました。


Domain experts often rely on up-to-date knowledge for apprehending and disseminating specific biological processes that help them design strategies to develop prevention and therapeutic decision-making. A challenging scenario for artificial intelligence (AI) is using biomedical data (e.g., texts, imaging, omics, and clinical) to provide diagnosis and treatment recommendations for cancerous conditions. Data and knowledge about cancer, drugs, genes, proteins, and their mechanism is spread across structured (knowledge bases (KBs)) and unstructured (e.g., scientific articles) sources. A large-scale knowledge graph (KG) can be constructed by integrating these data, followed by extracting facts about semantically interrelated entities and relations. Such KGs not only allow exploration and question answering (QA) but also allow domain experts to deduce new knowledge. However, exploring and querying large-scale KGs is tedious for non-domain users due to a lack of understanding of the underlying data assets and semantic technologies. In this paper, we develop a domain KG to leverage cancer-specific biomarker discovery and interactive QA. For this, a domain ontology called OncoNet Ontology (ONO) is developed to enable semantic reasoning for validating gene-disease relations. The KG is then enriched by harmonizing the ONO, controlled vocabularies, and additional biomedical concepts from scientific articles by employing BioBERT- and SciBERT-based information extraction (IE) methods. Further, since the biomedical domain is evolving, where new findings often replace old ones, without employing up-to-date findings, there is a high chance an AI system exhibits concept drift while providing diagnosis and treatment. Therefore, we finetuned the KG using large language models (LLMs) based on more recent articles and KBs that might not have been seen by the named entity recognition models.


著者 Md. Rezaul Karim,Lina Molinas Comet,Md Shajalal,Oya Beyan,Dietrich Rebholz-Schuhmann,Stefan Decker
発行日 2023-10-12 14:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク