Mixed Continuous and Categorical Flow Matching for 3D De Novo Molecule Generation

要約

新しい分子構造を生成する深層生成モデルは、化学的発見を促進する可能性を秘めています。
拡散モデルは現在、3D 分子生成において最先端のパフォーマンスを実現しています。
この研究では、de novo 分子生成のタスクのために、拡散モデルを一般化する最近提案された生成モデリング フレームワークであるフロー マッチングの使用を検討します。
フローマッチングにより、モデル設計に柔軟性がもたらされます。
ただし、このフレームワークは継続的に値が変化するデータを前提としています。
3D de novo 分子生成では、原子の位置や原子の種類などの連続変数とカテゴリ変数を共同でサンプリングする必要があります。
確率シンプレックスとして知られるカテゴリカル データの連続表現上に存在するように制約されたフローを構築することにより、フロー マッチング フレームワークをカテゴリデータに拡張します。
この拡張機能を SimplexFlow と呼びます。
私たちは、de novo 分子生成のための SimplexFlow の使用を検討します。
ただし、実際には、データのカテゴリ的な性質に対応しない単純なアプローチの方が、同等以上のパフォーマンスが得られることがわかりました。
これらの実験の結果、我々は、以前のフロー マッチング手法よりも優れたパフォーマンスを達成する 3D de novo 生成モデル用のフロー マッチング モデルである FlowMol を提示し、フロー マッチング モデルで強力なパフォーマンスを達成するための事前分布の設計に関する重要な疑問を提起します。

この作業を再現するためのコードとトレーニング済みモデルは、https://github.com/dunni3/FlowMol で入手できます。

要約(オリジナル)

Deep generative models that produce novel molecular structures have the potential to facilitate chemical discovery. Diffusion models currently achieve state of the art performance for 3D molecule generation. In this work, we explore the use of flow matching, a recently proposed generative modeling framework that generalizes diffusion models, for the task of de novo molecule generation. Flow matching provides flexibility in model design; however, the framework is predicated on the assumption of continuously-valued data. 3D de novo molecule generation requires jointly sampling continuous and categorical variables such as atom position and atom type. We extend the flow matching framework to categorical data by constructing flows that are constrained to exist on a continuous representation of categorical data known as the probability simplex. We call this extension SimplexFlow. We explore the use of SimplexFlow for de novo molecule generation. However, we find that, in practice, a simpler approach that makes no accommodations for the categorical nature of the data yields equivalent or superior performance. As a result of these experiments, we present FlowMol, a flow matching model for 3D de novo generative model that achieves improved performance over prior flow matching methods, and we raise important questions about the design of prior distributions for achieving strong performance in flow matching models. Code and trained models for reproducing this work are available at https://github.com/dunni3/FlowMol

arxiv情報

著者 Ian Dunn,David Ryan Koes
発行日 2024-04-30 17:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク