Pre-training of Molecular GNNs as Conditional Boltzmann Generator

要約

深層学習を使用した分子構造の表現の学習は、分子特性予測タスクにおける基本的な問題です。
分子は本質的に三次元構造として現実世界に存在します。
さらに、それらは静的ではなく、3D ユークリッド空間内で連続的に動き、位置エネルギー面を形成します。
したがって、事前に複数の立体構造を生成し、複数の立体構造を組み込んだ 4D-QSAR モデルを使用して分子表現を抽出することが望ましいです。
ただし、このアプローチは、複数の立体構造を取得するのに計算コストがかかるため、創薬や材料の発見タスクには現実的ではありません。
この問題に対処するために、我々は、分子立体構造の既存のデータセットを使用して、2D 分子グラフから複数の立体構造に普遍的な潜在ベクトルを生成する、分子 GNN の事前トレーニング方法を提案します。
ボルツマン GNN と呼ばれる私たちの方法は、コンフォメーション生成のための条件付き生成モデルの条件付き周辺尤度を最大化することによって定式化されます。
私たちのモデルは、分子グラフと三次元分子構造を使用した既存の事前トレーニング方法よりも分子特性の予測性能が優れていることを示します。

要約(オリジナル)

Learning representations of molecular structures using deep learning is a fundamental problem in molecular property prediction tasks. Molecules inherently exist in the real world as three-dimensional structures; furthermore, they are not static but in continuous motion in the 3D Euclidean space, forming a potential energy surface. Therefore, it is desirable to generate multiple conformations in advance and extract molecular representations using a 4D-QSAR model that incorporates multiple conformations. However, this approach is impractical for drug and material discovery tasks because of the computational cost of obtaining multiple conformations. To address this issue, we propose a pre-training method for molecular GNNs using an existing dataset of molecular conformations to generate a latent vector universal to multiple conformations from a 2D molecular graph. Our method, called Boltzmann GNN, is formulated by maximizing the conditional marginal likelihood of a conditional generative model for conformations generation. We show that our model has a better prediction performance for molecular properties than existing pre-training methods using molecular graphs and three-dimensional molecular structures.

arxiv情報

著者 Daiki Koge,Naoaki Ono,Shigehiko Kanaya
発行日 2023-12-31 06:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, q-bio.BM パーマリンク