From Words to Molecules: A Survey of Large Language Models in Chemistry

要約

近年、大規模言語モデル(LLM)は自然言語処理(NLP)や様々な学際的分野で大きな成功を収めている。しかし、LLMを化学に応用することは、専門的な領域知識を必要とする複雑なタスクである。本稿では、LLMを化学分野に統合する際に採用される微妙な方法論を徹底的に調査し、この学際的な分岐点における複雑さと革新性を掘り下げる。具体的には、様々な表現方法やトークン化方法を通して、分子情報がどのようにLLMに取り込まれるかを検証することから始める。次に、入力データのドメインとモダリティに基づいて化学LLMを3つの異なるグループに分類し、これらの入力をLLMに統合するアプローチについて議論する。さらに本稿では、化学LLMに適応した事前学習の目的について掘り下げる。その後、化学におけるLLMの多様な応用を探求し、化学タスクへのLLM応用のための新しいパラダイムを紹介する。最後に、化学知識とのさらなる統合、継続的学習の進歩、モデルの解釈可能性の向上など、有望な研究の方向性を明らかにし、この分野における画期的な発展への道を開く。

要約(オリジナル)

In recent years, Large Language Models (LLMs) have achieved significant success in natural language processing (NLP) and various interdisciplinary areas. However, applying LLMs to chemistry is a complex task that requires specialized domain knowledge. This paper provides a thorough exploration of the nuanced methodologies employed in integrating LLMs into the field of chemistry, delving into the complexities and innovations at this interdisciplinary juncture. Specifically, our analysis begins with examining how molecular information is fed into LLMs through various representation and tokenization methods. We then categorize chemical LLMs into three distinct groups based on the domain and modality of their input data, and discuss approaches for integrating these inputs for LLMs. Furthermore, this paper delves into the pretraining objectives with adaptations to chemical LLMs. After that, we explore the diverse applications of LLMs in chemistry, including novel paradigms for their application in chemistry tasks. Finally, we identify promising research directions, including further integration with chemical knowledge, advancements in continual learning, and improvements in model interpretability, paving the way for groundbreaking developments in the field.

arxiv情報

著者 Chang Liao,Yemin Yu,Yu Mei,Ying Wei
発行日 2024-02-02 14:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.BM, q-bio.QM パーマリンク