Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations

要約

分子表現の学習は、分子特性や副作用の理解と予測など、さまざまな下流アプリケーションを支えます。
この論文では、個々の分子の 2 レベル構造が、大きな分子の知識グラフのノードであるだけでなく、固有のグラフ構造を持つものとして認識し、個々の分子のグラフ表現を複数の要素とシームレスに統合する新しいアプローチである GODE を紹介します。
ナレッジグラフからのドメイン生物医学データ。
異なるグラフ構造で 2 つのグラフ ニューラル ネットワーク (GNN) を事前トレーニングし、対照学習と組み合わせることで、GODE は分子構造を対応する知識グラフの部分構造と適切に融合します。
この融合により、より堅牢で有益な表現が得られ、化学情報と生物学的情報の両方を活用することで分子特性の予測が強化されます。
11 の化学特性タスクに基づいて微調整された当社のモデルはベンチマークを上回り、BBBP、SIDER、Tox21 データセットで ROC-AUC の平均 14.5%、9.8%、7.3% の改善を達成しました。
ESOL および QM7 データセットの回帰タスクでは、RMSE および MAE で平均 21.0% の改善と 29.6% の改善を達成し、新しいフィールド ベンチマークを設定しました。

要約(オリジナル)

Molecule representation learning underpins diverse downstream applications such as molecular property and side effect understanding and prediction. In this paper, we recognize the two-level structure of individual molecule as having intrinsic graph structure as well as being a node in a large molecule knowledge graph, and present GODE, a new approach that seamlessly integrates graph representations of individual molecules with multi-domain biomedical data from knowledge graphs. By pre-training two graph neural networks (GNNs) on different graph structures, combined with contrastive learning, GODE adeptly fuses molecular structures with their corresponding knowledge graph substructures. This fusion results in a more robust and informative representation, enhancing molecular property prediction by harnessing both chemical and biological information. Finetuned on 11 chemical property tasks, our model surpasses benchmarks, achieving an average ROC-AUC improvement of 14.5%, 9.8%, and 7.3% on BBBP, SIDER, and Tox21 datasets. In regression tasks on ESOL and QM7 datasets, we achieve average improvements of 21.0% and 29.6% improvements in RMSE and MAE, setting a new field benchmark.

arxiv情報

著者 Pengcheng Jiang,Cao Xiao,Tianfan Fu,Jimeng Sun
発行日 2023-08-16 12:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク