要約
タンパク質固有の大手言語モデル(タンパク質LLM)は、より効率的なタンパク質構造の予測、機能注釈、および設計を可能にすることにより、タンパク質科学に革命をもたらしています。
既存の調査は特定の側面またはアプリケーションに焦点を当てていますが、この作業は、タンパク質LLMSの最初の包括的な概要を提供し、アーキテクチャ、トレーニングデータセット、評価メトリック、および多様なアプリケーションをカバーしています。
100を超える記事の体系的な分析を通じて、最先端のタンパク質LLMの構造化された分類法を提案し、精度を改善するために大規模なタンパク質シーケンスデータを活用する方法を分析し、タンパク質工学と生物医学研究の進歩における可能性を調査します。
さらに、重要な課題と将来の方向性について説明し、タンパク質LLMSをタンパク質科学における科学的発見のための不可欠なツールとして配置します。
リソースはhttps://github.com/yijia-xiao/protein-llm-surveyで維持されます。
要約(オリジナル)
Protein-specific large language models (Protein LLMs) are revolutionizing protein science by enabling more efficient protein structure prediction, function annotation, and design. While existing surveys focus on specific aspects or applications, this work provides the first comprehensive overview of Protein LLMs, covering their architectures, training datasets, evaluation metrics, and diverse applications. Through a systematic analysis of over 100 articles, we propose a structured taxonomy of state-of-the-art Protein LLMs, analyze how they leverage large-scale protein sequence data for improved accuracy, and explore their potential in advancing protein engineering and biomedical research. Additionally, we discuss key challenges and future directions, positioning Protein LLMs as essential tools for scientific discovery in protein science. Resources are maintained at https://github.com/Yijia-Xiao/Protein-LLM-Survey.
arxiv情報
著者 | Yijia Xiao,Wanjia Zhao,Junkai Zhang,Yiqiao Jin,Han Zhang,Zhicheng Ren,Renliang Sun,Haixin Wang,Guancheng Wan,Pan Lu,Xiao Luo,Yu Zhang,James Zou,Yizhou Sun,Wei Wang |
発行日 | 2025-03-06 16:14:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google