Node-Aligned Graph-to-Graph Generation for Retrosynthesis Prediction


既存のテンプレートフリーの機械学習ベースのモデルは通常、トランスフォーマー構造を利用し、分子を ID シーケンスとして表します。
ただし、これらの方法では、分子の広範なトポロジー情報を十分に活用し、生成物と反応物の間で原子を位置合わせする際に課題に直面することが多く、セミテンプレート モデルほど競争力のない結果が得られます。
私たちが提案する手法である Node-Aligned Graph-to-Graph (NAG2G) も、トランスフォーマーベースのテンプレートフリーモデルとして機能しますが、2D 分子グラフと 3D 立体構造情報を利用します。
私たちの広範なベンチマーク結果は、提案された NAG2G がさまざまな指標において以前の最先端のベースラインを上回るパフォーマンスを発揮できることを示しています。


Single-step retrosynthesis is a crucial task in organic chemistry and drug design, requiring the identification of required reactants to synthesize a specific compound. with the advent of computer-aided synthesis planning, there is growing interest in using machine-learning techniques to facilitate the process. Existing template-free machine learning-based models typically utilize transformer structures and represent molecules as ID sequences. However, these methods often face challenges in fully leveraging the extensive topological information of the molecule and aligning atoms between the production and reactants, leading to results that are not as competitive as those of semi-template models. Our proposed method, Node-Aligned Graph-to-Graph (NAG2G), also serves as a transformer-based template-free model but utilizes 2D molecular graphs and 3D conformation information. Furthermore, our approach simplifies the incorporation of production-reactant atom mapping alignment by leveraging node alignment to determine a specific order for node generation and generating molecular graphs in an auto-regressive manner node-by-node. This method ensures that the node generation order coincides with the node order in the input graph, overcoming the difficulty of determining a specific node generation order in an auto-regressive manner. Our extensive benchmarking results demonstrate that the proposed NAG2G can outperform the previous state-of-the-art baselines in various metrics.


著者 Lin Yao,Zhen Wang,Wentao Guo,Shang Xiang,Wentan Liu,Guolin Ke
発行日 2023-09-27 17:16:32+00:00
カテゴリー: cs.LG, physics.chem-ph, q-bio.QM パーマリンク