Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature

要約

公開された生物医学情報は急速に増加しており、今後も増加し続けます。
自然言語処理 (NLP) の最近の進歩により、遺伝子や病気などの実体に関する生物医学的知識の抽出、正規化、表現の自動化に大きな関心が集まっています。
私たちの研究では、遺伝子と疾患に関してこの分野で行われてきた膨大な研究の知識グラフを構築する際に、生殖細胞系列の要約を分析しています。
この論文では、生殖系列遺伝子と疾患を結びつける自動ナレッジグラフ構築アプローチである SimpleGermKG について紹介します。
遺伝子と疾患の抽出には、生物医学コーパスで事前にトレーニングされた BERT モデルである BioBERT を採用しています。
私たちは、医療用語を標準化し、曖昧さをなくすためのオントロジーベースおよびルールベースのアルゴリズムを提案します。
論文、遺伝子、疾患間の意味論的な関係については、部分全体関係アプローチを実装して、各エンティティをそのデータ ソースに接続し、グラフベースの知識表現で視覚化しました。
最後に、生殖細胞系列コーパスの将来の研究にインスピレーションを与えるナレッジ グラフのアプリケーション、限界、課題について説明します。
私たちのナレッジ グラフには、297 個の遺伝子、130 個の疾患、および 46,747 個のトリプルが含まれています。
結果を表示するには、グラフベースの視覚化が使用されます。

要約(オリジナル)

Published biomedical information has and continues to rapidly increase. The recent advancements in Natural Language Processing (NLP), have generated considerable interest in automating the extraction, normalization, and representation of biomedical knowledge about entities such as genes and diseases. Our study analyzes germline abstracts in the construction of knowledge graphs of the of the immense work that has been done in this area for genes and diseases. This paper presents SimpleGermKG, an automatic knowledge graph construction approach that connects germline genes and diseases. For the extraction of genes and diseases, we employ BioBERT, a pre-trained BERT model on biomedical corpora. We propose an ontology-based and rule-based algorithm to standardize and disambiguate medical terms. For semantic relationships between articles, genes, and diseases, we implemented a part-whole relation approach to connect each entity with its data source and visualize them in a graph-based knowledge representation. Lastly, we discuss the knowledge graph applications, limitations, and challenges to inspire the future research of germline corpora. Our knowledge graph contains 297 genes, 130 diseases, and 46,747 triples. Graph-based visualizations are used to show the results.

arxiv情報

著者 Armando D. Diaz Gonzalez,Songhui Yue,Sean T. Hayes,Kevin S. Hughes
発行日 2023-09-30 04:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク