G-MATT: Single-step Retrosynthesis Prediction using Molecular Grammar Tree Transformer

要約

【タイトル】 「G-MATT: Molecular Grammar Tree Transformerを使用した単一ステップの後向き合成予測」

【要約】
– 単一ステップの後向き合成予測のため、反応テンプレートベースおよびテンプレートフリーアプローチが報告されていますが、多くは従来のデータ駆動型メトリックの観点からうまく機能するものの、モデルアーキテクチャと後向き合成を統制する原理との間には不一致があります。
– そこで、化学知識と強力なデータ駆動型モデルを組み合わせた新しい化学意識型の後向き合成予測フレームワークが提案されています。
– 入力の階層的SMILES文法木に基づくTree-to-Sequence Transformerアーキテクチャを報告している。この木は、純粋なSMILESベースの表現に基づくモデルが無視する化学情報を含んでいる。
– 提案されたG-MATTフレームワークは、ベースラインの後向き合成モデルに比べて有意なパフォーマンス改善を達成している。具体的にはtop-1精度51%、top-10精度79.1%、無効率1.5%、およびバイオアクティブ類似性率74.8%である。
– 注意マップに基づくさらなる分析により、G-MATTが非常に複雑なモデルアーキテクチャを使用せずに、化学知識を保持する能力を示すことが示されている。

要約(オリジナル)

In recent years, several reaction templates-based and template-free approaches have been reported for single-step retrosynthesis prediction. Even though many of these approaches perform well from traditional data-driven metrics standpoint, there is a disconnect between model architectures used and underlying chemistry principles governing retrosynthesis. Here, we propose a novel chemistry-aware retrosynthesis prediction framework that combines powerful data-driven models with chemistry knowledge. We report a tree-to-sequence transformer architecture based on hierarchical SMILES grammar trees as input containing underlying chemistry information that is otherwise ignored by models based on purely SMILES-based representations. The proposed framework, grammar-based molecular attention tree transformer (G-MATT), achieves significant performance improvements compared to baseline retrosynthesis models. G-MATT achieves a top-1 accuracy of 51% (top-10 accuracy of 79.1%), invalid rate of 1.5%, and bioactive similarity rate of 74.8%. Further analyses based on attention maps demonstrate G-MATT’s ability to preserve chemistry knowledge without having to use extremely complex model architectures.

arxiv情報

著者 Kevin Zhang,Vipul Mann,Venkat Venkatasubramanian
発行日 2023-05-04 21:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.FL, cs.LG, cs.SC, q-bio.QM パーマリンク