Materials Discovery with Extreme Properties via Reinforcement Learning-Guided Combinatorial Chemistry

要約

ほとんどの材料発見の目標は、現在知られている材料よりも優れた材料を発見することです。
基本的に、これは外挿に近いものであり、データの確率分布を学習するほとんどの機械学習モデルの弱点となります。
ここでは、強化学習に基づくコンビナトリアル化学を開発します。これは、ターゲット分子を取得するために後続の分子フラグメントを選択するための訓練されたポリシーによって駆動されるルールベースの分子デザイナーです。
私たちのモデルは、分子断片の組み合わせから得られるあらゆる分子構造を生成する可能性を秘めているため、優れた特性を持つ未知の分子を発見することができます。
私たちは理論的および経験的に、私たちのモデルが確率分布学習モデルよりも優れた化合物を発見するのに適していることを示しています。
7 つの極端なターゲット特性に一致する分子を発見することを目的とした実験では、私たちのモデルは 100,000 回の試行のうち、ターゲットにヒットするすべての分子のうち 1,315 個と、ターゲットにヒットする 5 つの分子のうち 7,629 個を発見しましたが、確率分布学習モデルは失敗しました。
さらに、分子断片の結合規則に従って生成されたすべての分子は、化学的に 100% 有効であることが確認されています。
実際の問題でのパフォーマンスを説明するために、タンパク質ドッキング分子と HIV 阻害剤の発見という 2 つの実際的なアプリケーションでもモデルがうまく機能することを実証します。

要約(オリジナル)

The goal of most materials discovery is to discover materials that are superior to those currently known. Fundamentally, this is close to extrapolation, which is a weak point for most machine learning models that learn the probability distribution of data. Herein, we develop reinforcement learning-guided combinatorial chemistry, which is a rule-based molecular designer driven by trained policy for selecting subsequent molecular fragments to get a target molecule. Since our model has the potential to generate all possible molecular structures that can be obtained from combinations of molecular fragments, unknown molecules with superior properties can be discovered. We theoretically and empirically demonstrate that our model is more suitable for discovering better compounds than probability distribution-learning models. In an experiment aimed at discovering molecules that hit seven extreme target properties, our model discovered 1,315 of all target-hitting molecules and 7,629 of five target-hitting molecules out of 100,000 trials, whereas the probability distribution-learning models failed. Moreover, it has been confirmed that every molecule generated under the binding rules of molecular fragments is 100% chemically valid. To illustrate the performance in actual problems, we also demonstrate that our models work well on two practical applications: discovering protein docking molecules and HIV inhibitors.

arxiv情報

著者 Hyunseung Kim,Haeyeon Choi,Dongju Kang,Won Bo Lee,Jonggeol Na
発行日 2024-05-07 15:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク