Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning

要約

化学反応と逆合成の予測は、創薬における基本的なタスクである。近年、大規模言語モデル(LLM)は多くの領域で可能性を示している。しかしながら、これらのタスクにLLMを直接適用することは、2つの大きな課題に直面している。(i)大規模な化学合成関連の命令データセットがないこと、(ii)既存の微調整戦略では反応と逆合成予測の間の密接な相関を無視すること、である。これらの課題を解決するために、我々は正確な化学合成のための新しいLLMフレームワークであるChemDualを提案する。具体的には、反応と逆合成のデータ取得にかかる高いコストを考慮し、ChemDualは分子の反応と逆合成を関連する再結合と断片化のプロセスとみなし、440万命令の大規模データセットを構築する。さらに、ChemDualは、マルチスケールトークナイザーとデュアルタスク学習戦略を備えた強化されたLLaMAを導入し、組み換えと断片化のプロセス、および反応と再合成予測の間のタスクを共同で最適化する。Mol-InstructionとUSPTO-50Kデータセットを用いた広範な実験により、ChemDualは反応と逆合成の両方の予測において最先端の性能を達成し、既存の従来のシングルタスクのアプローチや一般的なオープンソースのLLMを凌駕することが実証された。分子ドッキング解析により、ChemDualは多様で強力なタンパク質結合親和性を持つ化合物を生成し、創薬設計におけるChemDualの強力な可能性をさらに浮き彫りにしている。

要約(オリジナル)

Chemical reaction and retrosynthesis prediction are fundamental tasks in drug discovery. Recently, large language models (LLMs) have shown potential in many domains. However, directly applying LLMs to these tasks faces two major challenges: (i) lacking a large-scale chemical synthesis-related instruction dataset; (ii) ignoring the close correlation between reaction and retrosynthesis prediction for the existing fine-tuning strategies. To address these challenges, we propose ChemDual, a novel LLM framework for accurate chemical synthesis. Specifically, considering the high cost of data acquisition for reaction and retrosynthesis, ChemDual regards the reaction-and-retrosynthesis of molecules as a related recombination-and-fragmentation process and constructs a large-scale of 4.4 million instruction dataset. Furthermore, ChemDual introduces an enhanced LLaMA, equipped with a multi-scale tokenizer and dual-task learning strategy, to jointly optimize the process of recombination and fragmentation as well as the tasks between reaction and retrosynthesis prediction. Extensive experiments on Mol-Instruction and USPTO-50K datasets demonstrate that ChemDual achieves state-of-the-art performance in both predictions of reaction and retrosynthesis, outperforming the existing conventional single-task approaches and the general open-source LLMs. Through molecular docking analysis, ChemDual generates compounds with diverse and strong protein binding affinity, further highlighting its strong potential in drug design.

arxiv情報

著者 Xuan Lin,Qingrui Liu,Hongxin Xiang,Daojian Zeng,Xiangxiang Zeng
発行日 2025-05-05 13:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク