要約
笑顔に基づいた分子の生成は、創薬における強力なアプローチとして浮上しています。
大規模な言語モデル(LLM)を使用したディープ補強学習(RL)が分子生成プロセスに組み込まれており、望ましい分子候補の可能性があるという点で高いマッチングスコアを達成しています。
ただし、このアプローチの重要な課題は、RLフェーズ中の壊滅的な忘却です。この段階では、前脱出中に99%を超える分子妥当性などの知識が大幅に悪化します。
再発明などの創薬に適用された現在のRLアルゴリズムは、リツアン前脱契約の知識のアンカーとして以前のモデルを使用しますが、これらの方法には堅牢な探索メカニズムがありません。
これらの問題に対処するために、調査を奨励しながら壊滅的な忘却を防ぐためにリアルタイムの部分的な笑顔検証を組み込んだ新しいRLアルゴリズムである部分的なSmiles検証-PPO(PSV-PPO)を提案します。
シーケンス全体を生成した後にのみ分子構造を検証する従来のRLアプローチとは異なり、PSV-PPOは各自動回帰ステップで段階的検証を実行し、選択したトークン候補だけでなく、前の部分シーケンスに由来するすべての潜在的な分岐も評価します。
これにより、すべての潜在的なパスにわたって無効な部分的な笑顔を早期に検出できます。
その結果、PSV-PPOは、広大な化学空間の積極的な調査中であっても、高い妥当性率を維持しています。
PMOおよびグアカモールベンチマークデータセットでの実験は、PSV-PPOが競争力のある探索と最適化パフォーマンスを維持しながら、無効な生成構造の数を大幅に削減することを示しています。
私たちの仕事は主に妥当性の維持に焦点を当てていますが、PSV-PPOのフレームワークを将来の研究で拡張して、貴重なドメイン知識の追加形態を組み込むことができ、創薬における強化学習アプリケーションをさらに強化することができます。
要約(オリジナル)
SMILES-based molecule generation has emerged as a powerful approach in drug discovery. Deep reinforcement learning (RL) using large language model (LLM) has been incorporated into the molecule generation process to achieve high matching score in term of likelihood of desired molecule candidates. However, a critical challenge in this approach is catastrophic forgetting during the RL phase, where knowledge such as molecule validity, which often exceeds 99\% during pretraining, significantly deteriorates. Current RL algorithms applied in drug discovery, such as REINVENT, use prior models as anchors to retian pretraining knowledge, but these methods lack robust exploration mechanisms. To address these issues, we propose Partial SMILES Validation-PPO (PSV-PPO), a novel RL algorithm that incorporates real-time partial SMILES validation to prevent catastrophic forgetting while encouraging exploration. Unlike traditional RL approaches that validate molecule structures only after generating entire sequences, PSV-PPO performs stepwise validation at each auto-regressive step, evaluating not only the selected token candidate but also all potential branches stemming from the prior partial sequence. This enables early detection of invalid partial SMILES across all potential paths. As a result, PSV-PPO maintains high validity rates even during aggressive exploration of the vast chemical space. Our experiments on the PMO and GuacaMol benchmark datasets demonstrate that PSV-PPO significantly reduces the number of invalid generated structures while maintaining competitive exploration and optimization performance. While our work primarily focuses on maintaining validity, the framework of PSV-PPO can be extended in future research to incorporate additional forms of valuable domain knowledge, further enhancing reinforcement learning applications in drug discovery.
arxiv情報
著者 | Xinyu Wang,Jinbo Bi,Minghu Song |
発行日 | 2025-05-01 13:57:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google