要約
有機合成は化学産業の基礎です。
有機反応に関連するタスクをサポートする堅牢な機械学習モデルの開発は、非常に興味深いものです。
しかし、現在の手法は手作りの特徴や他の領域のモデルアーキテクチャの直接適応に依存しており、データスケールが増大するにつれて実現可能性が欠けたり、反応に固有の豊富な化学情報が見落とされたりする。
これらの問題に対処するために、この論文では、さまざまな有機反応関連のタスクに合わせて調整された新しい化学反応表現学習モデルである {\modelname} を紹介します。
反応物と生成物の間の原子対応を統合することにより、私たちのモデルは反応中に起こる分子変化を識別し、それによって反応機構の理解を深めます。
私たちは、反応条件を化学反応表現に組み込むアダプター構造を設計しました。これにより、モデルが多様な反応条件を処理し、さまざまなデータセットや下流のタスク (反応性能予測など) に適応できるようになります。
さらに、モデルが主要な官能基に集中できるようにする反応中心認識の注目メカニズムを導入し、それによって化学反応の強力な表現を生成します。
私たちのモデルは、反応条件予測、反応収量予測、反応選択性予測など、さまざまな下流タスクで評価されています。
実験結果は、私たちのモデルがすべてのタスクにわたって既存の化学反応表現学習アーキテクチャよりも著しく優れていることを示しています。
特に、当社のモデルはすべてのベースラインを大幅に上回っており、反応条件予測に関して USPTO\_CONDITION データセットの最も強力なベースラインよりも精度が最大 25\% (上位 1) および 16\% (上位 10) 向上しています。
私たちは論文が受け入れられ次第、コードをオープンソース化する予定です。
要約(オリジナル)
Organic synthesis stands as a cornerstone of chemical industry. The development of robust machine learning models to support tasks associated with organic reactions is of significant interest. However, current methods rely on hand-crafted features or direct adaptations of model architectures from other domains, which lacks feasibility as data scales increase or overlook the rich chemical information inherent in reactions. To address these issues, this paper introduces {\modelname}, a novel chemical reaction representation learning model tailored for a variety of organic-reaction-related tasks. By integrating atomic correspondence between reactants and products, our model discerns the molecular transformations that occur during the reaction, thereby enhancing the comprehension of the reaction mechanism. We have designed an adapter structure to incorporate reaction conditions into the chemical reaction representation, allowing the model to handle diverse reaction conditions and adapt to various datasets and downstream tasks, e.g., reaction performance prediction. Additionally, we introduce a reaction-center aware attention mechanism that enables the model to concentrate on key functional groups, thereby generating potent representations for chemical reactions. Our model has been evaluated on a range of downstream tasks, including reaction condition prediction, reaction yield prediction, and reaction selectivity prediction. Experimental results indicate that our model markedly outperforms existing chemical reaction representation learning architectures across all tasks. Notably, our model significantly outperforms all the baselines with up to 25\% (top-1) and 16\% (top-10) increased accuracy over the strongest baseline on USPTO\_CONDITION dataset for reaction condition prediction. We plan to open-source the code contingent upon the acceptance of the paper.
arxiv情報
著者 | Kaipeng Zeng,Xianbin Liu,Yu Zhang,Xiaokang Yang,Yaohui Jin,Yanyan Xu |
発行日 | 2024-11-26 17:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google