MolTC: Towards Molecular Relational Modeling In Language Models

要約

分子関係学習 (MRL) は、分子ペア間の相互作用を理解することを目的としており、生化学研究の進歩において極めて重要な役割を果たしています。
最近、膨大な知識リポジトリと高度な論理推論機能で知られる大規模言語モデル (LLM) の採用が、効率的かつ効果的な MRL の有望な方法として浮上しています。
その可能性にもかかわらず、これらの方法は主にテキスト データに依存しているため、分子グラフに固有の豊富な構造情報が十分に活用されていません。
さらに、統一されたフレームワークの欠如により、多様なデータセット間で学習された相互作用メカニズムの共有が妨げられるため、情報が十分に活用されていないという問題がさらに悪化します。
これらの課題に対処するために、この研究では、MolTC と呼ばれる、思考連鎖 (CoT) 理論に従った分子相互作用予測のための新しい LLM ベースのマルチモーダル フレームワークを提案します。これは、ペアの 2 つの分子のグラフィック情報を効果的に統合します。
統一された MRL を実現するために、MolTC はデータセット間情報共有のための動的なパラメータ共有戦略を革新的に開発しています。
さらに、MolTC を効率的にトレーニングするために、多階層 CoT コンセプトを導入してトレーニング パラダイムを改良し、MRL を含む生化学 LLM の開発のための包括的な分子インタラクティブ命令データセットを実施します。
4,000,000 を超える分子ペアを含むさまざまなデータセットにわたって実施された私たちの実験は、現在の GNN および LLM ベースのベースラインよりも優れていることを示しています。
コードは https://github.com/MangoKiller/MolTC で入手できます。

要約(オリジナル)

Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. For achieving a unified MRL, MolTC innovatively develops a dynamic parameter-sharing strategy for cross-dataset information sharing. Moreover, to train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.

arxiv情報

著者 Junfeng Fang,Shuai Zhang,Chang Wu,Zhengyi Yang,Zhiyuan Liu,Sihang Li,Kun Wang,Wenjie Du,Xiang Wang
発行日 2024-02-14 16:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク