GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text

要約

大規模言語モデルは自然言語処理において大きな進歩を遂げ、分子の表現や生成などの革新的なアプリケーションへの道を切り開きました。
しかし、既存の単一モダリティアプローチのほとんどは、分子データ内の豊富で複雑な情報を捕捉できません。
ここでは、簡易分子入力行入力システム (SMILES) と分子キャプションを含む、構造グラフ、画像、テキスト情報を統合するマルチモーダル大規模言語モデルである GIT-Mol を紹介します。
マルチモーダル分子データの統合を促進するために、すべてのモダリティを統一された潜在空間にマッピングできる新しいアーキテクチャである GIT-Former を提案します。
私たちの研究では、革新的なあらゆる言語への分子翻訳戦略を開発し、ベースラインと比較して、分子キャプションの 10% ~ 15% の向上、特性予測の精度の 5% ~ 10% の向上、分子生成の妥当性の 20% 向上を達成しました。
または単一モダリティモデル。

要約(オリジナル)

Large language models have made significant strides in natural language processing, paving the way for innovative applications including molecular representation and generation. However, most existing single-modality approaches cannot capture the abundant and complex information in molecular data. Here, we introduce GIT-Mol, a multi-modal large language model that integrates the structure Graph, Image, and Text information, including the Simplified Molecular Input Line Entry System (SMILES) and molecular captions. To facilitate the integration of multi-modal molecular data, we propose GIT-Former, a novel architecture capable of mapping all modalities into a unified latent space. Our study develops an innovative any-to-language molecular translation strategy and achieves a 10%-15% improvement in molecular captioning, a 5%-10% accuracy increase in property prediction, and a 20% boost in molecule generation validity compared to baseline or single-modality models.

arxiv情報

著者 Pengfei Liu,Yiming Ren,Zhixiang Ren
発行日 2023-08-14 03:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.BM パーマリンク