要約
タンパク質の相互作用と経路の知識を理解することは、生命システムの複雑さを解明し、生物学的機能や複雑な疾患の根底にあるメカニズムを調査するために非常に重要です。
既存のデータベースは文献やその他の情報源から厳選された生物学的データを提供しますが、多くの場合不完全であり、そのメンテナンスには多大な労力がかかるため、代替アプローチが必要です。
この研究では、大規模な言語モデルの機能を利用して、関連する科学文献からそのような知識を自動的に抽出することで、これらの問題に対処することを提案します。
この目標に向けて、この研究では、タンパク質相互作用の認識、低線量放射線の影響を受ける経路に関連する遺伝子の同定、および遺伝子調節関係を含むタスクにおけるさまざまな大規模言語モデルの有効性を調査します。
私たちはさまざまなモデルのパフォーマンスを徹底的に評価し、重要な発見を強調し、将来の機会とこのアプローチに関連する残りの課題の両方について議論します。
コードとデータは、https://github.com/boxorange/BioIE-LLM から入手できます。
要約(オリジナル)
Understanding protein interactions and pathway knowledge is crucial for unraveling the complexities of living systems and investigating the underlying mechanisms of biological functions and complex diseases. While existing databases provide curated biological data from literature and other sources, they are often incomplete and their maintenance is labor-intensive, necessitating alternative approaches. In this study, we propose to harness the capabilities of large language models to address these issues by automatically extracting such knowledge from the relevant scientific literature. Toward this goal, in this work, we investigate the effectiveness of different large language models in tasks that involve recognizing protein interactions, identifying genes associated with pathways affected by low-dose radiation, and gene regulatory relations. We thoroughly evaluate the performance of various models, highlight the significant findings, and discuss both the future opportunities and the remaining challenges associated with this approach. The code and data are available at: https://github.com/boxorange/BioIE-LLM
arxiv情報
著者 | Gilchan Park,Byung-Jun Yoon,Xihaier Luo,Vanessa López-Marrero,Shinjae Yoo,Shantenu Jha |
発行日 | 2023-10-18 13:52:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google