要約
質量分析は、未知の分子の構造とその後の科学的発見の構造を解明する上で基本的な役割を果たします。
構造解明タスクの1つの定式化は、質量スペクトルが与えられた分子構造の条件付き$ \ textit {de novo} $生成です。
小分子用のより正確で効率的な科学的発見パイプラインに向けて、このタスクで最先端のパフォーマンスを実現するフォーミュラ制限エンコーダーデコーダー生成ネットワークであるDIFFMSを提示します。
エンコーダーは、トランスアーキテクチャを使用し、ピーク式やニュートラル損失などのマススペクトルドメインの知識をモデル化し、デコーダーは既知の化学式の大原因組成によって制限された離散グラフ拡散モデルです。
潜在的な埋め込みと分子構造を橋渡しする堅牢なデコーダーを開発するために、構造スペクトルペアと比較して、実質的に無限の量で利用可能な指紋構造ペアで拡散デコーダーを前処理します。
確立されたベンチマークに関する広範な実験は、diffMが$ \ textit {de novo} $分子生成の既存のモデルを上回ることを示しています。
拡散および事前削除のアプローチの有効性を実証するために、いくつかのアブレーションを提供し、前登録データセットサイズの増加に伴う一貫したパフォーマンススケーリングを示します。
DIFFMSコードは、https://github.com/coleygroup/diffmsで公開されています。
要約(オリジナル)
Mass spectrometry plays a fundamental role in elucidating the structures of unknown molecules and subsequent scientific discoveries. One formulation of the structure elucidation task is the conditional $\textit{de novo}$ generation of molecular structure given a mass spectrum. Toward a more accurate and efficient scientific discovery pipeline for small molecules, we present DiffMS, a formula-restricted encoder-decoder generative network that achieves state-of-the-art performance on this task. The encoder utilizes a transformer architecture and models mass spectra domain knowledge such as peak formulae and neutral losses, and the decoder is a discrete graph diffusion model restricted by the heavy-atom composition of a known chemical formula. To develop a robust decoder that bridges latent embeddings and molecular structures, we pretrain the diffusion decoder with fingerprint-structure pairs, which are available in virtually infinite quantities, compared to structure-spectrum pairs that number in the tens of thousands. Extensive experiments on established benchmarks show that DiffMS outperforms existing models on $\textit{de novo}$ molecule generation. We provide several ablations to demonstrate the effectiveness of our diffusion and pretraining approaches and show consistent performance scaling with increasing pretraining dataset size. DiffMS code is publicly available at https://github.com/coleygroup/DiffMS.
arxiv情報
著者 | Montgomery Bohde,Mrunali Manjrekar,Runzhong Wang,Shuiwang Ji,Connor W. Coley |
発行日 | 2025-02-13 18:29:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google