Geometry-aware Line Graph Transformer Pre-training for Molecular Property Prediction

要約

ディープラーニングを用いた分子物性予測は、ここ数年大きな注目を集めている。ラベル付けされた分子が少ないため、ラベル付けされていないデータから汎化可能な分子表現を学習する自己教師あり学習法への関心が高まっている。分子は一般的に2次元のトポロジカルグラフとして扱われるが、分子の機能性を決定する上で、その3次元形状が非常に重要であることが分かってきた。本論文では、2次元と3次元のモダリティを持つ分子表現学習を強化することを目的とした、新しい自己教師付き学習フレームワークであるGeometry-aware line graph transformer (Galformer)事前学習を提案する。具体的には、まず、分子のトポロジー情報と幾何学的情報をエンコードするために、デュアルモダリティの折れ線グラフ変換器のバックボーンを設計する。設計されたバックボーンには、両方のモダリティからグラフ構造を捉えるための効果的な構造エンコーディングが組み込まれている。次に、モダリティ間レベルとモダリティ内レベルの2つの相補的な事前学習タスクを考案する。これらのタスクは適切に教師された情報を提供し、ラベル付けされていない分子から識別可能な2次元と3次元の知識を抽出する。最後に、Galformerを12の物性予測ベンチマークにおいて、6つの最先端のベースラインと比較し、下流でのファインチューニングにより評価する。実験の結果、Galformerは分類と回帰の両タスクにおいて全てのベースラインを一貫して上回り、その有効性が実証された。

要約(オリジナル)

Molecular property prediction with deep learning has gained much attention over the past years. Owing to the scarcity of labeled molecules, there has been growing interest in self-supervised learning methods that learn generalizable molecular representations from unlabeled data. Molecules are typically treated as 2D topological graphs in modeling, but it has been discovered that their 3D geometry is of great importance in determining molecular functionalities. In this paper, we propose the Geometry-aware line graph transformer (Galformer) pre-training, a novel self-supervised learning framework that aims to enhance molecular representation learning with 2D and 3D modalities. Specifically, we first design a dual-modality line graph transformer backbone to encode the topological and geometric information of a molecule. The designed backbone incorporates effective structural encodings to capture graph structures from both modalities. Then we devise two complementary pre-training tasks at the inter and intra-modality levels. These tasks provide properly supervised information and extract discriminative 2D and 3D knowledge from unlabeled molecules. Finally, we evaluate Galformer against six state-of-the-art baselines on twelve property prediction benchmarks via downstream fine-tuning. Experimental results show that Galformer consistently outperforms all baselines on both classification and regression tasks, demonstrating its effectiveness.

arxiv情報

著者 Peizhen Bai,Xianyuan Liu,Haiping Lu
発行日 2023-09-01 14:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.BM パーマリンク