Representation Learning, Large-Scale 3D Molecular Pretraining, Molecular Property

要約

分子前の表現(MPR)は、創薬や材料設計などの用途での限られた監視データの課題に対処するための強力なアプローチとして浮上しています。
初期のMPRメソッドは1Dシーケンスと2Dグラフに依存していましたが、最近の進歩により、豊富な原子相互作用をキャプチャするために3D立体配座情報が組み込まれています。
ただし、これらの以前のモデルは分子を単に離散原子セットとして扱い、周囲のスペースを見下ろしています。
私たちは、これらの個別のポイントのみをモデル化するだけでは不十分であると物理的な観点から主張します。
最初に、シンプルでありながら洞察に富んだ観察を提示します。原子を超えてランダムにサンプリングされた仮想ポイントを素朴に追加すると、驚くほどMPRパフォーマンスが向上する可能性があります。
これに照らして、分子が及ぶ3Dスペース全体を組み込んだ原則的なフレームワークを提案します。
3つの重要なコンポーネントを備えた、SpaceFormerと呼ばれる新しい変圧器ベースのアーキテクチャを介してフレームワークを実装します。(1)グリッドベースのスペース離散化。
(2)グリッドサンプリング/マージ。
(3)効率的な3D位置エンコーディング。
広範な実験では、SpaceFormerが限られたデータを持つさまざまな下流タスクにわたって以前の3D MPRモデルを大幅に上回り、MPRモデルの原子を超えた追加の3Dスペースを活用する利点を検証することが示されています。

要約(オリジナル)

Molecular pretrained representations (MPR) has emerged as a powerful approach for addressing the challenge of limited supervised data in applications such as drug discovery and material design. While early MPR methods relied on 1D sequences and 2D graphs, recent advancements have incorporated 3D conformational information to capture rich atomic interactions. However, these prior models treat molecules merely as discrete atom sets, overlooking the space surrounding them. We argue from a physical perspective that only modeling these discrete points is insufficient. We first present a simple yet insightful observation: naively adding randomly sampled virtual points beyond atoms can surprisingly enhance MPR performance. In light of this, we propose a principled framework that incorporates the entire 3D space spanned by molecules. We implement the framework via a novel Transformer-based architecture, dubbed SpaceFormer, with three key components: (1) grid-based space discretization; (2) grid sampling/merging; and (3) efficient 3D positional encoding. Extensive experiments show that SpaceFormer significantly outperforms previous 3D MPR models across various downstream tasks with limited data, validating the benefit of leveraging the additional 3D space beyond atoms in MPR models.

arxiv情報

著者 Shuqi Lu,Xiaohong Ji,Bohang Zhang,Lin Yao,Siyuan Liu,Zhifeng Gao,Linfeng Zhang,Guolin Ke
発行日 2025-03-13 15:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク