Comparative Analysis of LLaMA and ChatGPT Embeddings for Molecule Embedding


目的:ChatGPTやLLaMAのような大規模言語モデル(LLM)は、ケムインフォマティクスの分野、特に化学構造を表現するための標準的な手法であるSimplified Molecular Input Line Entry System (SMILES)の解釈において、その可能性がますます認識されてきている。これらのLLMは、SMILES文字列をベクトル表現にデコードすることができ、化学グラフを理解するための新しいアプローチを提供する。 方法SMILES文字列の埋め込みにおけるChatGPTとLLaMAの性能を調査する。評価対象は、医薬品開発やヘルスケアに不可欠な分子物性(MP)予測と薬物-薬物相互作用(DDI)予測の2つの主要アプリケーションである。 結果LLaMAを使用して生成されたSMILES埋め込みは、MPとDDI予測の両タスクにおいてChatGPTを上回ることがわかった。特に、LLaMAベースのSMILESエンベッディングは、両方の予測タスクにおいて既存の手法に匹敵する結果を示した。 結論ケムインフォマティクスにおけるLLMの応用、特にSMILESエンベッディングの活用は、医薬品開発の進歩に大きな可能性を示している。これには、化学的性質の予測を改善し、創薬プロセスを促進することが含まれる。GitHub:


Purpose: Large Language Models (LLMs) like ChatGPT and LLaMA are increasingly recognized for their potential in the field of cheminformatics, particularly in interpreting Simplified Molecular Input Line Entry System (SMILES), a standard method for representing chemical structures. These LLMs can decode SMILES strings into vector representations, providing a novel approach to understanding chemical graphs. Methods: We investigate the performance of ChatGPT and LLaMA in embedding SMILES strings. Our evaluation focuses on two key applications: molecular property (MP) prediction and drug-drug interaction (DDI) prediction, both essential in drug development and healthcare. Results: We find that SMILES embeddings generated using LLaMA outperform those from ChatGPT in both MP and DDI prediction tasks. Notably, LLaMA-based SMILES embeddings show results comparable to existing methods in both prediction tasks. Conclusion: The application of LLMs in cheminformatics, particularly in utilizing SMILES embeddings, shows significant promise for advancing drug development. This includes improving the prediction of chemical properties and facilitating the drug discovery process. GitHub:


著者 Shaghayegh Sadeghi,Alan Bui,Ali Forooghi,Jianguo Lu,Alioune Ngom
発行日 2024-02-05 18:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.BM パーマリンク