Can Large Language Models Empower Molecular Property Prediction?

要約

分子特性予測は、複数の科学分野において変革をもたらす可能性があるため、大きな注目を集めています。
従来、分子グラフはグラフ構造データまたはSMILESテキストとして表現できました。
最近、大規模言語モデル (LLM) の急速な発展により、NLP の分野に革命が起こりました。
SMILES に代表される分子の理解を助けるために LLM を利用するのは自然なことですが、LLM が分子の特性予測にどのような影響を与えるかについての探求はまだ初期段階にあります。
この研究では、ゼロ/少数ショット分子分類と、LLM によって生成された新しい説明を分子の表現として使用するという 2 つの観点を通じて、この目的に向かって前進します。
具体的には、まず LLM にコンテキスト内の分子分類を実行し、そのパフォーマンスを評価するように促します。
その後、LLM を使用して元の SMILES の意味的に強化された説明を生成し、それを利用して複数の下流タスク用に小規模な LM モデルを微調整します。
実験結果は、複数のベンチマーク データセットにわたる分子表現としてのテキスト説明の優位性を強調し、分子特性予測タスクにおける LLM の計り知れない可能性を裏付けています。
コードは \url{https://github.com/ChnQ/LLM4Mol} で入手できます。

要約(オリジナル)

Molecular property prediction has gained significant attention due to its transformative potential in multiple scientific disciplines. Conventionally, a molecule graph can be represented either as a graph-structured data or a SMILES text. Recently, the rapid development of Large Language Models (LLMs) has revolutionized the field of NLP. Although it is natural to utilize LLMs to assist in understanding molecules represented by SMILES, the exploration of how LLMs will impact molecular property prediction is still in its early stage. In this work, we advance towards this objective through two perspectives: zero/few-shot molecular classification, and using the new explanations generated by LLMs as representations of molecules. To be specific, we first prompt LLMs to do in-context molecular classification and evaluate their performance. After that, we employ LLMs to generate semantically enriched explanations for the original SMILES and then leverage that to fine-tune a small-scale LM model for multiple downstream tasks. The experimental results highlight the superiority of text explanations as molecular representations across multiple benchmark datasets, and confirm the immense potential of LLMs in molecular property prediction tasks. Codes are available at \url{https://github.com/ChnQ/LLM4Mol}.

arxiv情報

著者 Chen Qian,Huayi Tang,Zhirui Yang,Hong Liang,Yong Liu
発行日 2023-07-14 16:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク