Computational Protein Science in the Era of Large Language Models (LLMs)

要約

タンパク質の重要性を考慮すると、計算タンパク質科学は常に重要な科学分野であり、タンパク質の配列-構造-機能パラダイム内で知識を明らかにし、応用を開発することに専念しています。
過去数十年にわたり、人工知能 (AI) は計算タンパク質科学に大きな影響を与え、特定のタンパク質モデリング タスクで顕著な成功を収めてきました。
ただし、これらの以前の AI モデルには、タンパク質配列の意味論を理解することが難しいことや、幅広いタンパク質モデリング タスクにわたって一般化できないことなど、依然として制限があります。
最近、LLM は、前例のない言語処理と一般化機能により、AI のマイルストーンとして浮上しています。
個々のタスクを解決するのではなく、分野の包括的な進歩を促進することができます。
その結果、研究者らは計算タンパク質科学にLLM技術を積極的に導入し、タンパク質の基礎知識を巧みに把握し、配列-構造-機能推論の多様な問題を解決するために効果的に一般化できるタンパク質言語モデル(pLM)を開発している。
繁栄した発展を目の当たりにしながら、LLM 技術によって強化された計算タンパク質科学の体系的な概要を提示する必要があります。
まず、既存の pLM を、習得したタンパク質の知識、つまり、基礎となる配列パターン、明示的な構造および機能情報、および外部科学言語に基づいてカテゴリに要約します。
次に、pLM の利用と適応について紹介し、タンパク質の構造予測、タンパク質の機能予測、タンパク質設計研究の促進における pLM の顕著な成果を紹介します。
次に、抗体設計、酵素設計、および創薬における pLM の実際の応用について説明します。
最後に、この急成長分野における有望な将来の方向性について具体的に説明します。

要約(オリジナル)

Considering the significance of proteins, computational protein science has always been a critical scientific field, dedicated to revealing knowledge and developing applications within the protein sequence-structure-function paradigm. In the last few decades, Artificial Intelligence (AI) has made significant impacts in computational protein science, leading to notable successes in specific protein modeling tasks. However, those previous AI models still meet limitations, such as the difficulty in comprehending the semantics of protein sequences, and the inability to generalize across a wide range of protein modeling tasks. Recently, LLMs have emerged as a milestone in AI due to their unprecedented language processing & generalization capability. They can promote comprehensive progress in fields rather than solving individual tasks. As a result, researchers have actively introduced LLM techniques in computational protein science, developing protein Language Models (pLMs) that skillfully grasp the foundational knowledge of proteins and can be effectively generalized to solve a diversity of sequence-structure-function reasoning problems. While witnessing prosperous developments, it’s necessary to present a systematic overview of computational protein science empowered by LLM techniques. First, we summarize existing pLMs into categories based on their mastered protein knowledge, i.e., underlying sequence patterns, explicit structural and functional information, and external scientific languages. Second, we introduce the utilization and adaptation of pLMs, highlighting their remarkable achievements in promoting protein structure prediction, protein function prediction, and protein design studies. Then, we describe the practical application of pLMs in antibody design, enzyme design, and drug discovery. Finally, we specifically discuss the promising future directions in this fast-growing field.

arxiv情報

著者 Wenqi Fan,Yi Zhou,Shijie Wang,Yuyao Yan,Hui Liu,Qian Zhao,Le Song,Qing Li
発行日 2025-01-17 16:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, q-bio.BM パーマリンク