要約
分子物性予測は、創薬や材料科学において重要な問題である。幾何学的構造が分子物性予測に必要であることが示されているため、3次元情報を様々なグラフ学習手法と組み合わせることで、予測性能の向上が図られてきた。しかし、分子の幾何学的構造を得ることは、計算コストが高いため、多くの実世界のアプリケーションでは実現不可能である。本研究では、3次元分子グラフ上でモデルを事前学習し、3次元構造を持たない分子グラフ上でモデルを微調整する、新しい3次元事前学習フレームワーク(3次元PGTと呼ばれる)を提案する。結合長、結合角、二面角は、分子の3次元コンフォマーに対応する3つの基本的な幾何学的記述子であるという事実に基づき、我々はまず、これら3つの属性に基づくマルチタスク生成的プリトレーニングフレームワークを開発する。次に、これらの3つの生成タスクを自動的に融合させるために、3Dコンフォーマーの品質に対応する総エネルギーから3つのプレテキストタスクの重み分布を探索するために、the \textit{total energy}を用いたサロゲートメトリックを設計する。様々なプレトレーニングベースラインと比較して、提案する3D PGTの精度、効率、汎化能力を実証するために、2D分子グラフを用いた広範な実験を行う。
要約(オリジナル)
Molecular property prediction is an important problem in drug discovery and materials science. As geometric structures have been demonstrated necessary for molecular property prediction, 3D information has been combined with various graph learning methods to boost prediction performance. However, obtaining the geometric structure of molecules is not feasible in many real-world applications due to the high computational cost. In this work, we propose a novel 3D pre-training framework (dubbed 3D PGT), which pre-trains a model on 3D molecular graphs, and then fine-tunes it on molecular graphs without 3D structures. Based on fact that bond length, bond angle, and dihedral angle are three basic geometric descriptors corresponding to a complete molecular 3D conformer, we first develop a multi-task generative pre-train framework based on these three attributes. Next, to automatically fuse these three generative tasks, we design a surrogate metric using the \textit{total energy} to search for weight distribution of the three pretext task since total energy corresponding to the quality of 3D conformer.Extensive experiments on 2D molecular graphs are conducted to demonstrate the accuracy, efficiency and generalization ability of the proposed 3D PGT compared to various pre-training baselines.
arxiv情報
著者 | Xu Wang,Huan Zhao,Weiwei Tu,Quanming Yao |
発行日 | 2023-07-02 13:03:27+00:00 |
arxivサイト | arxiv_id(pdf) |