Scientific Large Language Models: A Survey on Biological & Chemical Domains

要約

大規模言語モデル (LLM) は、自然言語の理解を強化する革新的な力として登場し、汎用人工知能への大きな進歩を表しています。
LLM の応用は従来の言語の境界を超えて広がり、さまざまな科学分野で開発された特殊な言語システムを網羅します。
この関心の高まりにより、科学的発見を促進するために特別に設計された新しいサブクラスである科学 LLM が出現しました。
AI for Science コミュニティの急成長分野として、科学 LLM は包括的な調査を正当化します。
しかし、それらを紹介する体系的かつ最新の調査は現在不足しています。
この論文では、科学 LLM の最新の進歩を徹底的にレビューしながら、「科学言語」の概念を系統的に説明することに努めています。
科学分野の広大な領域を考慮して、私たちの分析では、生物学的領域と化学的領域に焦点を当てた焦点を絞ったレンズを採用しています。
これには、テキスト知識、低分子、高分子タンパク質、ゲノム配列、およびそれらの組み合わせに関する LLM の詳細な調査が含まれ、モデル アーキテクチャ、機能、データセット、評価の観点からそれらを分析します。
最後に、一般的な課題を批判的に検討し、LLM の進歩とともに有望な研究の方向性を指摘します。
この分野の技術開発の包括的な概要を提供することにより、この調査は、科学 LLM の複雑な状況をナビゲートする研究者にとって貴重なリソースとなることを目指しています。

要約(オリジナル)

Large Language Models (LLMs) have emerged as a transformative power in enhancing natural language comprehension, representing a significant stride toward artificial general intelligence. The application of LLMs extends beyond conventional linguistic boundaries, encompassing specialized linguistic systems developed within various scientific disciplines. This growing interest has led to the advent of scientific LLMs, a novel subclass specifically engineered for facilitating scientific discovery. As a burgeoning area in the community of AI for Science, scientific LLMs warrant comprehensive exploration. However, a systematic and up-to-date survey introducing them is currently lacking. In this paper, we endeavor to methodically delineate the concept of ‘scientific language’, whilst providing a thorough review of the latest advancements in scientific LLMs. Given the expansive realm of scientific disciplines, our analysis adopts a focused lens, concentrating on the biological and chemical domains. This includes an in-depth examination of LLMs for textual knowledge, small molecules, macromolecular proteins, genomic sequences, and their combinations, analyzing them in terms of model architectures, capabilities, datasets, and evaluation. Finally, we critically examine the prevailing challenges and point out promising research directions along with the advances of LLMs. By offering a comprehensive overview of technical developments in this field, this survey aspires to be an invaluable resource for researchers navigating the intricate landscape of scientific LLMs.

arxiv情報

著者 Qiang Zhang,Keyang Ding,Tianwen Lyv,Xinda Wang,Qingyu Yin,Yiwen Zhang,Jing Yu,Yuhao Wang,Xiaotong Li,Zhuoyi Xiang,Kehua Feng,Xiang Zhuang,Zeyuan Wang,Ming Qin,Mengyao Zhang,Jinlu Zhang,Jiyu Cui,Tao Huang,Pengju Yan,Renjun Xu,Hongyang Chen,Xiaolin Li,Xiaohui Fan,Huabin Xing,Huajun Chen
発行日 2024-07-23 13:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク