T-Rex: Text-assisted Retrosynthesis Prediction

要約

計算化学における基本的なタスクとして、逆合成予測は、標的分子を合成するための一連の反応物質を特定することを目的としています。
既存のテンプレートフリーのアプローチでは、ターゲット分子のグラフ構造のみが考慮されており、まれな反応タイプや大きな分子に対してうまく一般化できないことがよくあります。
ここでは、ChatGPT などの事前トレーニングされたテキスト言語モデルを利用して反応物の生成を支援する、テキスト支援逆合成予測アプローチである T-Rex を提案します。
T-Rex はまず ChatGPT を利用して標的分子の記述を生成し、記述と分子グラフの両方に基づいて候補反応中心をランク付けします。
次に、各反応物の説明を照会することでこれらの候補を再ランク付けし、どのグループの反応物が標的分子を最もよく合成できるかを調べます。
私たちは、T-Rex が 2 つのデータセットに対してグラフベースの最先端のアプローチを大幅に上回っていることを観察し、テキスト情報を考慮することの有効性を示しています。
さらに、T-Rex が、再ランキング手順なしで ChatGPT ベースの記述のみを使用するバリアントよりも優れたパフォーマンスを発揮することもわかりました。これは、私たちのフレームワークが ChatGPT とグラフ情報の直接的な統合よりも優れたパフォーマンスを示していることを示しています。
まとめると、事前トレーニングされた言語モデルによって生成されたテキストが逆合成予測を大幅に改善し、ChatGPT を利用して計算化学を進歩させるための新しい道を開くことができることを示します。
コードは https://github.com/lauyikfung/T-Rex で見つけることができます。

要約(オリジナル)

As a fundamental task in computational chemistry, retrosynthesis prediction aims to identify a set of reactants to synthesize a target molecule. Existing template-free approaches only consider the graph structures of the target molecule, which often cannot generalize well to rare reaction types and large molecules. Here, we propose T-Rex, a text-assisted retrosynthesis prediction approach that exploits pre-trained text language models, such as ChatGPT, to assist the generation of reactants. T-Rex first exploits ChatGPT to generate a description for the target molecule and rank candidate reaction centers based both the description and the molecular graph. It then re-ranks these candidates by querying the descriptions for each reactants and examines which group of reactants can best synthesize the target molecule. We observed that T-Rex substantially outperformed graph-based state-of-the-art approaches on two datasets, indicating the effectiveness of considering text information. We further found that T-Rex outperformed the variant that only use ChatGPT-based description without the re-ranking step, demonstrate how our framework outperformed a straightforward integration of ChatGPT and graph information. Collectively, we show that text generated by pre-trained language models can substantially improve retrosynthesis prediction, opening up new avenues for exploiting ChatGPT to advance computational chemistry. And the codes can be found at https://github.com/lauyikfung/T-Rex.

arxiv情報

著者 Yifeng Liu,Hanwen Xu,Tangqi Fang,Haocheng Xi,Zixuan Liu,Sheng Zhang,Hoifung Poon,Sheng Wang
発行日 2024-01-26 04:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク