Analysis of Atom-level pretraining with QM data for Graph Neural Networks Molecular property models

要約

定量的構造活性相関 (QSAR) モデルの深層学習は急速かつ大幅に進歩していますが、現実世界のシナリオで新規化合物を効果的に一般化する堅牢な分子表現を学習するという課題は、とらえどころのない未解決の課題のままです。
この研究では、量子力学 (QM) データを使用した原子レベルの事前トレーニングによって、トレーニング データとテスト データ間の分布の類似性に関する仮定の違反がどのように軽減され、それによって下流のタスクのパフォーマンスと一般化が向上するかを検証します。
公開データセット Therapeutics Data Commons (TDC) では、原子レベルの QM での事前トレーニングによって全体的なパフォーマンスが向上し、機能のアクティブ化がよりガウス分布に近くなり、結果として分布の変化に対してより堅牢な表現が得られることを示します。
私たちの知る限り、QM データに対する分子レベルと原子レベルの事前学習の効果を比較するために隠れ状態の分子表現が分析されたのはこれが初めてです。

要約(オリジナル)

Despite the rapid and significant advancements in deep learning for Quantitative Structure-Activity Relationship (QSAR) models, the challenge of learning robust molecular representations that effectively generalize in real-world scenarios to novel compounds remains an elusive and unresolved task. This study examines how atom-level pretraining with quantum mechanics (QM) data can mitigate violations of assumptions regarding the distributional similarity between training and test data and therefore improve performance and generalization in downstream tasks. In the public dataset Therapeutics Data Commons (TDC), we show how pretraining on atom-level QM improves performance overall and makes the activation of the features distributes more Gaussian-like which results in a representation that is more robust to distribution shifts. To the best of our knowledge, this is the first time that hidden state molecular representations are analyzed to compare the effects of molecule-level and atom-level pretraining on QM data.

arxiv情報

著者 Jose Arjona-Medina,Ramil Nugmanov
発行日 2024-05-23 17:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, quant-ph パーマリンク