Leap: molecular synthesisability scoring with intermediates

要約

分子が合成できるかどうかを評価することは、創薬における主要なタスクです。
これにより、計算化学者は実行可能な化合物をフィルタリングしたり、分子生成モデルにバイアスをかけたりすることができます。
合成可能性の概念は、主要な化合物の入手可能性に応じて進化するため、動的です。
創薬における一般的なアプローチには、合成的に利用可能な中間体の周囲の化学空間を探索することが含まれます。
この戦略により、重要な中間体が利用できるため、派生分子の合成可能性が向上します。
SAScore、SCScore、RAScore などの既存の合成可能性スコアリング方法では、中間体を動的に条件付けることができません。
私たちのアプローチである Leap は、予測された合成ルートの深さ、つまり最長の直線パスでトレーニングされた GPT-2 モデルであり、主要な中間体の可用性に関する情報を推論時に含めることができます。
我々は、合成可能な分子を同定する際に、Leap が他のすべてのスコアリング方法を AUC スコアで少なくとも 5% 上回り、関連する中間化合物が提示された場合に予測スコアを首尾よく適応させることができることを示します。

要約(オリジナル)

Assessing whether a molecule can be synthesised is a primary task in drug discovery. It enables computational chemists to filter for viable compounds or bias molecular generative models. The notion of synthesisability is dynamic as it evolves depending on the availability of key compounds. A common approach in drug discovery involves exploring the chemical space surrounding synthetically-accessible intermediates. This strategy improves the synthesisability of the derived molecules due to the availability of key intermediates. Existing synthesisability scoring methods such as SAScore, SCScore and RAScore, cannot condition on intermediates dynamically. Our approach, Leap, is a GPT-2 model trained on the depth, or longest linear path, of predicted synthesis routes that allows information on the availability of key intermediates to be included at inference time. We show that Leap surpasses all other scoring methods by at least 5% on AUC score when identifying synthesisable molecules, and can successfully adapt predicted scores when presented with a relevant intermediate compound.

arxiv情報

著者 Antonia Calvi,Théophile Gaudin,Dominik Miketa,Dominique Sydow,Liam Wilbraham
発行日 2024-04-12 16:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, q-bio.BM パーマリンク