Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge

要約

背景:生体分子間の相互作用と調節関係の特定は、複雑な生物学的系と多様な生物学的機能の根底にあるメカニズムを理解する上で極めて重要な役割を果たします。
しかし、このような分子相互作用の収集は、過去の専門家のキュレーションに大きく依存しており、労働集約的で時間がかかります。
これらの課題を軽減するために、この重要な知識のゲノムスケール抽出を自動化するために、大規模な言語モデル(LLM)の機能を活用することを提案します。
結果:この研究では、タンパク質相互作用の認識、低用量放射線の影響を受けた経路に関連する遺伝子の識別、遺伝子調節関係の描写など、生物学的タスクに対処する際のさまざまなLLMの有効性を調査します。
全体として、より大きなモデルは優れた性能を示し、遺伝子とタンパク質間の複雑な相互作用の抽出を伴う特定のタスクの可能性を示しています。
これらのモデルは、異なる遺伝子およびタンパク質グループの詳細情報を持っていましたが、多様な機能を持つグループを特定し、高度に相関した遺伝子調節関係を認識する際に課題に直面しました。
結論:確立された分子相互作用と経路データベースを使用して最先端のモデルの包括的な評価を実施することにより、我々の研究では、LLMが関心のある経路に関連する遺伝子/タンパク質を特定し、相互作用をある程度予測できることが明らかになりました。
さらに、これらのモデルは重要な洞察を提供することができ、AIアシストされた知識発見を通じて生物学的システムの理解を深めることに目立つ進歩を遂げます。

要約(オリジナル)

Background: Identification of the interactions and regulatory relations between biomolecules play pivotal roles in understanding complex biological systems and the mechanisms underlying diverse biological functions. However, the collection of such molecular interactions has heavily relied on expert curation in the past, making it labor-intensive and time-consuming. To mitigate these challenges, we propose leveraging the capabilities of large language models (LLMs) to automate genome-scale extraction of this crucial knowledge. Results: In this study, we investigate the efficacy of various LLMs in addressing biological tasks, such as the recognition of protein interactions, identification of genes linked to pathways affected by low-dose radiation, and the delineation of gene regulatory relationships. Overall, the larger models exhibited superior performance, indicating their potential for specific tasks that involve the extraction of complex interactions among genes and proteins. Although these models possessed detailed information for distinct gene and protein groups, they faced challenges in identifying groups with diverse functions and in recognizing highly correlated gene regulatory relationships. Conclusions: By conducting a comprehensive assessment of the state-of-the-art models using well-established molecular interaction and pathway databases, our study reveals that LLMs can identify genes/proteins associated with pathways of interest and predict their interactions to a certain extent. Furthermore, these models can provide important insights, marking a noteworthy stride toward advancing our understanding of biological systems through AI-assisted knowledge discovery.

arxiv情報

著者 Gilchan Park,Byung-Jun Yoon,Xihaier Luo,Vanessa López-Marrero,Shinjae Yoo,Shantenu Jha
発行日 2025-04-23 16:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク