要約
分子特性を予測することは創薬に不可欠であり、計算方法はこのプロセスを大幅に強化できます。
分子グラフは、グラフニューラルネットワーク(GNNS)が広く使用されており、表現学習の焦点となっています。
ただし、GNNはしばしば長距離依存関係の獲得に苦労しています。
これに対処するために、特徴抽出を強化し、分子の長距離相互作用を効果的にモデル化する新しいグラフベースのXLSTMモデルであるMolgraph-XLSTMを提案します。
私たちのアプローチは、原子レベルとモチーフレベルの2つのスケールで分子グラフを処理します。
アトムレベルのグラフの場合、ジャンプした知識を備えたGNNベースのXLSTMフレームワークは、ローカル機能を抽出し、多層情報を集計してローカルパターンとグローバルなパターンの両方を効果的にキャプチャします。
モチーフレベルのグラフは、より広い分子ビューのための相補的な構造情報を提供します。
両方のスケールからの埋め込みは、専門家(MHMOE)のマルチヘッド混合物を介して改良され、表現力とパフォーマンスがさらに向上します。
分類タスクと回帰タスクの両方をカバーする、10分子の特性予測データセットでMolgraph-XLSTMを検証します。
私たちのモデルは、すべてのデータセットで一貫したパフォーマンスを示し、分類のためにBBBPデータセットで最大7.03%、ベースラインと比較して回帰のESOLデータセットで7.54%の改善を示しています。
平均して、Molgraph-XLSTMは、分類タスクで3.18 \%のAUROC改善と、ベースラインメソッドと比較して回帰データセット全体で3.83 \%のRMSE削減を達成します。
これらの結果は、モデルの有効性を裏付けており、創薬のための分子表現学習のための有望なソリューションを提供します。
要約(オリジナル)
Predicting molecular properties is essential for drug discovery, and computational methods can greatly enhance this process. Molecular graphs have become a focus for representation learning, with Graph Neural Networks (GNNs) widely used. However, GNNs often struggle with capturing long-range dependencies. To address this, we propose MolGraph-xLSTM, a novel graph-based xLSTM model that enhances feature extraction and effectively models molecule long-range interactions. Our approach processes molecular graphs at two scales: atom-level and motif-level. For atom-level graphs, a GNN-based xLSTM framework with jumping knowledge extracts local features and aggregates multilayer information to capture both local and global patterns effectively. Motif-level graphs provide complementary structural information for a broader molecular view. Embeddings from both scales are refined via a multi-head mixture of experts (MHMoE), further enhancing expressiveness and performance. We validate MolGraph-xLSTM on 10 molecular property prediction datasets, covering both classification and regression tasks. Our model demonstrates consistent performance across all datasets, with improvements of up to 7.03% on the BBBP dataset for classification and 7.54% on the ESOL dataset for regression compared to baselines. On average, MolGraph-xLSTM achieves an AUROC improvement of 3.18\% for classification tasks and an RMSE reduction of 3.83\% across regression datasets compared to the baseline methods. These results confirm the effectiveness of our model, offering a promising solution for molecular representation learning for drug discovery.
arxiv情報
著者 | Yan Sun,Yutong Lu,Yan Yi Li,Zihao Jing,Carson K. Leung,Pingzhao Hu |
発行日 | 2025-01-30 15:47:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google