Contextual Molecule Representation Learning from Chemical Reaction Knowledge

要約

近年、自己教師あり学習は、豊富なラベルなしデータを表現学習に活用する強力なツールとして台頭し、さまざまな分野で広く採用されています。
しかし、分子表現学習(MRL)に適用すると、マスクされたサブユニット再構成などの一般的な技術では不十分なことがよくあります。これは、分子内の原子の可能な組み合わせの自由度が高いためであり、マスキング再構成に克服できない複雑さをもたらします。
パラダイム。
この課題に取り組むために、一般的な化学における明確に定義された原子の組み合わせルールを利用する自己教師あり学習フレームワークである REMO を導入します。
具体的には、REMO は、文献に記載されている 170 万の既知の化学反応についてグラフ/Transformer エンコーダーを事前トレーニングします。
私たちは、マスクされた反応センター再構築 (MRCR) と反応センター識別 (RCI) という 2 つの事前トレーニング目標を提案します。
REMO は、化学反応の基礎となる共有パターンを事前トレーニング用の \textit{context} として利用することで、MRL に新しいソリューションを提供します。これにより、共通の化学知識の意味のある表現が効果的に推測されます。
このようなコンテキスト表現を利用して、親和性予測や薬物間相互作用予測など、最小限の微調整で多様な下流分子タスクをサポートできます。
MoleculeACE、ACNet、薬物間相互作用 (DDI)、および反応タイプ分類に関する広範な実験結果は、テストされたすべての下流タスクにわたって、REMO が現在の MRL で使用されている単一分子マスク モデリングの標準ベースラインを上回るパフォーマンスを示していることを示しています。
注目すべきことに、REMO はアクティビティ クリフ ベンチマークにおいてフィンガープリント ベースの手法を超える先駆的なディープ ラーニング モデルです。

要約(オリジナル)

In recent years, self-supervised learning has emerged as a powerful tool to harness abundant unlabelled data for representation learning and has been broadly adopted in diverse areas. However, when applied to molecular representation learning (MRL), prevailing techniques such as masked sub-unit reconstruction often fall short, due to the high degree of freedom in the possible combinations of atoms within molecules, which brings insurmountable complexity to the masking-reconstruction paradigm. To tackle this challenge, we introduce REMO, a self-supervised learning framework that takes advantage of well-defined atom-combination rules in common chemistry. Specifically, REMO pre-trains graph/Transformer encoders on 1.7 million known chemical reactions in the literature. We propose two pre-training objectives: Masked Reaction Centre Reconstruction (MRCR) and Reaction Centre Identification (RCI). REMO offers a novel solution to MRL by exploiting the underlying shared patterns in chemical reactions as \textit{context} for pre-training, which effectively infers meaningful representations of common chemistry knowledge. Such contextual representations can then be utilized to support diverse downstream molecular tasks with minimum finetuning, such as affinity prediction and drug-drug interaction prediction. Extensive experimental results on MoleculeACE, ACNet, drug-drug interaction (DDI), and reaction type classification show that across all tested downstream tasks, REMO outperforms the standard baseline of single-molecule masked modeling used in current MRL. Remarkably, REMO is the pioneering deep learning model surpassing fingerprint-based methods in activity cliff benchmarks.

arxiv情報

著者 Han Tang,Shikun Feng,Bicheng Lin,Yuyan Ni,JIngjing Liu,Wei-Ying Ma,Yanyan Lan
発行日 2024-02-21 12:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク