要約
近年、シングルステップ逆合成予測のために、さまざまなテンプレートベースおよびテンプレートフリーのアプローチが提案されています。
これらのアプローチはデータ駆動型メトリクスの観点からは強力なパフォーマンスを示していますが、多くのモデル アーキテクチャには基礎となる化学原理が組み込まれていません。
ここでは、強力なデータ駆動型モデルと事前のドメイン知識を組み合わせた、化学を意識した新しい逆合成予測フレームワークを提案します。
我々は、階層的な SMILES 文法ベースのツリーを利用し、ローカル構造や官能基などの SMILES テキストベースの表現では見落とされがちな重要な化学情報を組み込んだ、ツリーからシーケンスへの変換アーキテクチャを提案します。
提案されたフレームワークである文法ベースの分子アテンション ツリー トランスフォーマー (G-MATT) は、ベースライン逆合成モデルと比較して大幅なパフォーマンスの向上を実現します。
G-MATT は、USPTO-50K データセット上で、有望なトップ 1 精度 51% (トップ 10 精度 79.1%)、無効率 1.5%、生物活性類似率 74.8% を達成しています。
G-MATT アテンション マップの追加分析により、過度に複雑なモデル アーキテクチャに依存せずに化学知識を保持できることが実証されました。
要約(オリジナル)
Various template-based and template-free approaches have been proposed for single-step retrosynthesis prediction in recent years. While these approaches demonstrate strong performance from a data-driven metrics standpoint, many model architectures do not incorporate underlying chemistry principles. Here, we propose a novel chemistry-aware retrosynthesis prediction framework that combines powerful data-driven models with prior domain knowledge. We present a tree-to-sequence transformer architecture that utilizes hierarchical SMILES grammar-based trees, incorporating crucial chemistry information that is often overlooked by SMILES text-based representations, such as local structures and functional groups. The proposed framework, grammar-based molecular attention tree transformer (G-MATT), achieves significant performance improvements compared to baseline retrosynthesis models. G-MATT achieves a promising top-1 accuracy of 51% (top-10 accuracy of 79.1%), invalid rate of 1.5%, and bioactive similarity rate of 74.8% on the USPTO- 50K dataset. Additional analyses of G-MATT attention maps demonstrate the ability to retain chemistry knowledge without relying on excessively complex model architectures.
arxiv情報
著者 | Kevin Zhang,Vipul Mann,Venkat Venkatasubramanian |
発行日 | 2023-08-14 17:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google