Chimera: Accurate retrosynthesis prediction by ensembling models with diverse inductive biases

要約

化学合成の計画と実行は、機能性低分子の発見において依然として大きなボトルネックとなっており、分子逆設計のための生成 AI の完全な活用を妨げています。
初期の研究では、ML ベースの逆合成モデルが合理的なルートを予測できることが示されていますが、頻度は低いものの重要な反応については精度が低いことが指摘されています。
マルチステップ検索アルゴリズムは基礎となるモデルによって示唆される反応に限定されるため、これらのツールの適用可能性は逆合成予測の精度によって本質的に制限されます。
化学者が反応をアイデア化するためにさまざまな戦略を使用する方法に触発されて、私たちはキメラを提案します。これは、学習ベースのアンサンブル戦略を使用して、さまざまな情報源からの予測と相補的な帰納的バイアスを組み合わせる、高精度の反応モデルを構築するためのフレームワークです。
新しく開発された 2 つのモデルを使用してフレームワークをインスタンス化します。これらのモデルは、すでにそれ自体でそのカテゴリの最先端を実現しています。
データスケールと時間分割における数桁にわたる実験を通じて、構成要素の個々の優れたパフォーマンスだけでなく、アンサンブル戦略のスケーラビリティの両方のおかげで、Chimera がすべての主要モデルを大幅に上回るパフォーマンスを示すことがわかりました。
さらに、博士レベルの有機化学者は、品質の観点からベースラインよりもキメラからの予測を好むことがわかりました。
最後に、最大規模のチェックポイントを大手製薬会社の内部データセットに転送し、分布シフト下での堅牢な一般化を示します。
私たちのフレームワークが新たな次元を解き放つことで、より正確なモデルの開発がさらに加速すると予想されます。

要約(オリジナル)

Planning and conducting chemical syntheses remains a major bottleneck in the discovery of functional small molecules, and prevents fully leveraging generative AI for molecular inverse design. While early work has shown that ML-based retrosynthesis models can predict reasonable routes, their low accuracy for less frequent, yet important reactions has been pointed out. As multi-step search algorithms are limited to reactions suggested by the underlying model, the applicability of those tools is inherently constrained by the accuracy of retrosynthesis prediction. Inspired by how chemists use different strategies to ideate reactions, we propose Chimera: a framework for building highly accurate reaction models that combine predictions from diverse sources with complementary inductive biases using a learning-based ensembling strategy. We instantiate the framework with two newly developed models, which already by themselves achieve state of the art in their categories. Through experiments across several orders of magnitude in data scale and time-splits, we show Chimera outperforms all major models by a large margin, owing both to the good individual performance of its constituents, but also to the scalability of our ensembling strategy. Moreover, we find that PhD-level organic chemists prefer predictions from Chimera over baselines in terms of quality. Finally, we transfer the largest-scale checkpoint to an internal dataset from a major pharmaceutical company, showing robust generalization under distribution shift. With the new dimension that our framework unlocks, we anticipate further acceleration in the development of even more accurate models.

arxiv情報

著者 Krzysztof Maziarz,Guoqing Liu,Hubert Misztela,Aleksei Kornev,Piotr Gaiński,Holger Hoefling,Mike Fortunato,Rishi Gupta,Marwin Segler
発行日 2024-12-06 18:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク