Navigating the Design Space of Equivariant Diffusion-Based Generative Models for De Novo 3D Molecule Generation

要約

深部生成拡散モデルは、材料科学および創薬における新規 3D 分子設計の有望な手段です。
ただし、分子構造が大きく、トレーニング データが限られているため、その有用性は依然として最適ではないという制約を受けています。
このギャップに対処するために、以前は空白だったスポットに焦点を当てて、E(3) 等変拡散モデルの設計空間を探索します。
私たちの広範な比較分析は、連続状態空間と離散状態空間の間の相互作用を評価します。
この調査から、QM9 および GEOM-Drugs データセットで確立されたモデルのパフォーマンスを常に大幅に上回る EQGAT-diff モデルを導入します。
特徴的な点は、EQGAT-diff は連続的な原子位置を取り、化学元素と結合タイプはカテゴリカルであり、トレーニングの収束と生成されたサンプルの品質を大幅に向上させる時間依存の損失重み付けを採用しています。
限られたトレーニング データに対する拡散モデルの適用性をさらに強化するために、暗黙的な水素を含む大規模な PubChem3D データセットでトレーニングされた EQGAT-diff の、明示的な水素を含むターゲット分布への移行可能性を調べます。
数回の反復で EQGAT-diff を微調整することで、データセット全体で最先端のパフォーマンスがさらに向上します。
私たちは、複雑な分子の小さなデータセットに対する生成モデルの精度が重要である構造ベースの医薬品設計に、私たちの発見が応用できることを構想しています。

要約(オリジナル)

Deep generative diffusion models are a promising avenue for de novo 3D molecular design in material science and drug discovery. However, their utility is still constrained by suboptimal performance with large molecular structures and limited training data. Addressing this gap, we explore the design space of E(3) equivariant diffusion models, focusing on previously blank spots. Our extensive comparative analysis evaluates the interplay between continuous and discrete state spaces. Out of this investigation, we introduce the EQGAT-diff model, which consistently surpasses the performance of established models on the QM9 and GEOM-Drugs datasets by a large margin. Distinctively, EQGAT-diff takes continuous atomic positions while chemical elements and bond types are categorical and employ a time-dependent loss weighting that significantly increases training convergence and the quality of generated samples. To further strengthen the applicability of diffusion models to limited training data, we examine the transferability of EQGAT-diff trained on the large PubChem3D dataset with implicit hydrogens to target distributions with explicit hydrogens. Fine-tuning EQGAT-diff for a couple of iterations further pushes state-of-the-art performance across datasets. We envision that our findings will find applications in structure-based drug design, where the accuracy of generative models for small datasets of complex molecules is critical.

arxiv情報

著者 Tuan Le,Julian Cremer,Frank Noé,Djork-Arné Clevert,Kristof Schütt
発行日 2023-09-29 14:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク