要約
最近の分子生成モデルの進歩は、科学的発見、特に創薬設計を加速する上で大きな可能性を示している。しかしながら、これらのモデルは、特に特定の分子特性を満たす必要がある条件付きシナリオにおいて、高品質な分子を生成する上でしばしば課題に直面する。本研究では、幾何学的表現条件を統合することにより、分子生成モデルの性能を向上させる一般的なフレームワークであるGeoRCGを紹介する。分子生成プロセスを2つの段階に分解する。第1に、情報量の多い幾何学的表現を生成すること、第2に、その表現を条件とした分子を生成することである。分子を直接生成するのに比べ、第一段階の比較的生成しやすい表現は、第二段階の生成を、より目標指向的ではるかに速い方法で高品質な分子に到達するよう導く。EDMをベースジェネレータとして活用することで、広く使われているQM9とGEOM-DRUGデータセットの無条件分子生成において、大幅な品質向上が観察された。さらに注目すべきは、難易度の高い条件付き分子生成タスクにおいて、我々のフレームワークが最先端のアプローチと比較して平均31%の性能向上を達成したことであり、これは従来のアプローチにおけるような個々の特性値に対する条件付けよりも、意味的に豊かな幾何学的表現に対する条件付けの優位性を強調している。さらに、このような表現ガイダンスを用いることで、1,000ステップで達成されるよりも優れた生成品質を維持しながら、拡散ステップ数を100ステップまで減らすことができ、生成プロセスを大幅に加速できることを示す。
要約(オリジナル)
Recent advancements in molecular generative models have demonstrated substantial potential in accelerating scientific discovery, particularly in drug design. However, these models often face challenges in generating high-quality molecules, especially in conditional scenarios where specific molecular properties must be satisfied. In this work, we introduce GeoRCG, a general framework to enhance the performance of molecular generative models by integrating geometric representation conditions. We decompose the molecule generation process into two stages: first, generating an informative geometric representation; second, generating a molecule conditioned on the representation. Compared to directly generating a molecule, the relatively easy-to-generate representation in the first-stage guides the second-stage generation to reach a high-quality molecule in a more goal-oriented and much faster way. Leveraging EDM as the base generator, we observe significant quality improvements in unconditional molecule generation on the widely-used QM9 and GEOM-DRUG datasets. More notably, in the challenging conditional molecular generation task, our framework achieves an average 31\% performance improvement over state-of-the-art approaches, highlighting the superiority of conditioning on semantically rich geometric representations over conditioning on individual property values as in previous approaches. Furthermore, we show that, with such representation guidance, the number of diffusion steps can be reduced to as small as 100 while maintaining superior generation quality than that achieved with 1,000 steps, thereby significantly accelerating the generation process.
arxiv情報
著者 | Zian Li,Cai Zhou,Xiyuan Wang,Xingang Peng,Muhan Zhang |
発行日 | 2024-10-04 17:57:35+00:00 |
arxivサイト | arxiv_id(pdf) |