要約
深部生成拡散モデルは、材料科学および創薬における 3D の新規分子設計の有望な手段です。
ただし、大きな分子構造でのパフォーマンスが最適ではないことと、トレーニング データが限られているため、その有用性は依然として制限されています。
このギャップに対処するために、これまで未調査の領域に焦点を当てて、E(3) 等変拡散モデルの設計空間を調査しました。
私たちの広範な比較分析は、連続状態空間と離散状態空間の間の相互作用を評価します。
この調査から、QM9 および GEOM-Drugs データセットの確立されたモデルを一貫して上回る EQGAT-diff モデルを提示します。
重要なのは、EQGAT-diff は連続的な原子位置を取得する一方で、化学元素と結合タイプはカテゴリカルであり、時間依存の損失重み付けを使用するため、トレーニングの収束、生成されたサンプルの品質、および推論時間が大幅に向上します。
また、拡散プロセスにおけるハイブリダイゼーション状態などの化学的に動機付けられた追加の機能を含めることで、生成された分子の有効性が向上することも示します。
限られたトレーニング データへの拡散モデルの適用性をさらに強化するために、さまざまなデータ分布を対象として、暗黙的な水素原子を含む大規模な PubChem3D データセットでトレーニングされた EQGAT-diff の伝達可能性を調査します。
わずか数回の反復で EQGAT-diff を微調整すると、効率的な分布シフトが示され、データ セット全体のパフォーマンスがさらに向上します。
最後に、構造ベースの de novo リガンド生成のためのクロスドッキング データセットでモデルをテストし、Vina ドッキング スコアに関する最先端のパフォーマンスを示す発見の重要性を強調します。
要約(オリジナル)
Deep generative diffusion models are a promising avenue for 3D de novo molecular design in materials science and drug discovery. However, their utility is still limited by suboptimal performance on large molecular structures and limited training data. To address this gap, we explore the design space of E(3)-equivariant diffusion models, focusing on previously unexplored areas. Our extensive comparative analysis evaluates the interplay between continuous and discrete state spaces. From this investigation, we present the EQGAT-diff model, which consistently outperforms established models for the QM9 and GEOM-Drugs datasets. Significantly, EQGAT-diff takes continuous atom positions, while chemical elements and bond types are categorical and uses time-dependent loss weighting, substantially increasing training convergence, the quality of generated samples, and inference time. We also showcase that including chemically motivated additional features like hybridization states in the diffusion process enhances the validity of generated molecules. To further strengthen the applicability of diffusion models to limited training data, we investigate the transferability of EQGAT-diff trained on the large PubChem3D dataset with implicit hydrogen atoms to target different data distributions. Fine-tuning EQGAT-diff for just a few iterations shows an efficient distribution shift, further improving performance throughout data sets. Finally, we test our model on the Crossdocked data set for structure-based de novo ligand generation, underlining the importance of our findings showing state-of-the-art performance on Vina docking scores.
arxiv情報
著者 | Tuan Le,Julian Cremer,Frank Noé,Djork-Arné Clevert,Kristof Schütt |
発行日 | 2023-11-24 16:08:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google