GenMol: A Drug Discovery Generalist with Discrete Diffusion

要約

創薬は、フラグメントに制約された分子の生成、ヒット生成、リードの最適化など、複数のシナリオと段階を含む複雑なプロセスです。
しかし、既存の分子生成モデルは、これらのシナリオのうち 1 つまたは 2 つしか対処できず、創薬パイプラインのさまざまな側面に対処する柔軟性に欠けています。
この論文では、Sequential Attachment-based Fragment Embedding (SAFE) 分子表現に離散拡散を適用することでこれらの制限に対処する汎用フレームワークである Generalist Molecular Generative Model (GenMol) を紹介します。
GenMol は、非自己回帰双方向並列デコードを通じて SAFE シーケンスを生成するため、特定のトークンの順序に依存しない分子コンテキストの利用と計算効率の向上が可能になります。
さらに、離散拡散フレームワークの下で、フラグメントをマスクされたトークンに置き換えて再生成することで分子を最適化する戦略であるフラグメント・リマスキングを導入し、化学空間の効果的な探索を可能にします。
GenMol は、de novo 生成およびフラグメント制約付き生成において SAFE 表現でトレーニングされた以前の GPT ベースのモデルを大幅に上回り、目標指向のヒット生成およびリードの最適化において最先端のパフォーマンスを達成します。
これらの実験結果は、GenMol が広範囲の創薬タスクに取り組み、分子設計に統一的かつ多用途なアプローチを提供できることを示しています。

要約(オリジナル)

Drug discovery is a complex process that involves multiple scenarios and stages, such as fragment-constrained molecule generation, hit generation and lead optimization. However, existing molecular generative models can only tackle one or two of these scenarios and lack the flexibility to address various aspects of the drug discovery pipeline. In this paper, we present Generalist Molecular generative model (GenMol), a versatile framework that addresses these limitations by applying discrete diffusion to the Sequential Attachment-based Fragment Embedding (SAFE) molecular representation. GenMol generates SAFE sequences through non-autoregressive bidirectional parallel decoding, thereby allowing utilization of a molecular context that does not rely on the specific token ordering and enhanced computational efficiency. Moreover, under the discrete diffusion framework, we introduce fragment remasking, a strategy that optimizes molecules by replacing fragments with masked tokens and regenerating them, enabling effective exploration of chemical space. GenMol significantly outperforms the previous GPT-based model trained on SAFE representations in de novo generation and fragment-constrained generation, and achieves state-of-the-art performance in goal-directed hit generation and lead optimization. These experimental results demonstrate that GenMol can tackle a wide range of drug discovery tasks, providing a unified and versatile approach for molecular design.

arxiv情報

著者 Seul Lee,Karsten Kreis,Srimukh Prasad Veccham,Meng Liu,Danny Reidenbach,Yuxing Peng,Saee Paliwal,Weili Nie,Arash Vahdat
発行日 2025-01-10 18:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク