要約
大規模な言語モデルは、分子のテキスト表現を処理することにより、分子科学における革新的なアプリケーションを可能にし、自然言語処理において大きな進歩を遂げた。しかし、既存の言語モデルの多くは、複雑な分子構造や画像を持つ豊富な情報を捉えることができない。本稿では、グラフ、画像、テキスト情報を統合したマルチモーダルな大規模言語モデルGIT-Molを紹介する。マルチモーダルな分子データの統合を容易にするために、全てのモダリティを統一された潜在空間に整列させることができる新しいアーキテクチャであるGIT-Formerを提案する。その結果、ベースラインと比較して、物性予測の精度を5%~10%向上させ、分子生成の妥当性を20.2%向上させることに成功した。任意の言語への分子変換戦略により、我々のモデルは化合物名の認識や化学反応予測など、より下流のタスクを実行できる可能性がある。
要約(オリジナル)
Large language models have made significant strides in natural language processing, enabling innovative applications in molecular science by processing textual representations of molecules. However, most existing language models cannot capture the rich information with complex molecular structures or images. In this paper, we introduce GIT-Mol, a multi-modal large language model that integrates the Graph, Image, and Text information. To facilitate the integration of multi-modal molecular data, we propose GIT-Former, a novel architecture that is capable of aligning all modalities into a unified latent space. We achieve a 5%-10% accuracy increase in properties prediction and a 20.2% boost in molecule generation validity compared to the baselines. With the any-to-language molecular translation strategy, our model has the potential to perform more downstream tasks, such as compound name recognition and chemical reaction prediction.
arxiv情報
著者 | Pengfei Liu,Yiming Ren,Zhixiang Ren |
発行日 | 2024-01-04 02:22:07+00:00 |
arxivサイト | arxiv_id(pdf) |