Automating reward function configuration for drug design

要約

生成分子設計 (GMD) アルゴリズムを化学空間の望ましい領域に導く報酬関数を設計することは、AI 主導の創薬において非常に重要です。
従来、これは手作業であり、間違いが発生しやすい作業でした。
生物学的アッセイを近似するための適切な計算手法の選択は困難であり、計算値を単一のスコアに集約することはさらに困難であり、試行錯誤的なアプローチに依存する可能性があります。
私たちは、実験データのみに依存し、創薬プロジェクトにおける手動報酬調整の課題を軽減する、自動報酬設定のための新しいアプローチを提案します。
私たちの方法は、多目的空間におけるパレート優位性に基づいて実験データのランキングを構築し、予測された報酬によって決定されたランキングがパレート優位関係によって決定されたランキングと相関するように報酬関数を近似するようにニューラル ネットワークをトレーニングすることによってこれを実現します。
2 つのケーススタディを使用して方法を検証します。
最初の研究では、報酬関数の更新とその関数によって導かれる生成実行を交互に行うことによって、設計、製造、テスト、分析 (DMTA) サイクルをシミュレートします。
学習した関数が時間の経過とともに適応して、文献から取得した評価関数に関して高いスコアを獲得する化合物を生成することを示します。
2 番目の研究では、4 つの実際の創薬プロジェクトからの履歴データにアルゴリズムを適用します。
私たちのアルゴリズムは、人間が定義した関数の予測精度を上回る報酬関数を生成し、そのプロジェクトの標的薬物プロファイルをコード化するグラウンドトゥルース評価関数に対するスピアマン相関で最大 0.4 の改善を達成したことを示します。
私たちの手法は、GMD の報酬関数を構成するための効率的なデータ駆動型の方法を提供し、創薬の自動化のための革新的なアプローチに関する将来の研究のための強力なベースラインとして機能します。

要約(オリジナル)

Designing reward functions that guide generative molecular design (GMD) algorithms to desirable areas of chemical space is of critical importance in AI-driven drug discovery. Traditionally, this has been a manual and error-prone task; the selection of appropriate computational methods to approximate biological assays is challenging and the aggregation of computed values into a single score even more so, leading to potential reliance on trial-and-error approaches. We propose a novel approach for automated reward configuration that relies solely on experimental data, mitigating the challenges of manual reward adjustment on drug discovery projects. Our method achieves this by constructing a ranking over experimental data based on Pareto dominance over the multi-objective space, then training a neural network to approximate the reward function such that rankings determined by the predicted reward correlate with those determined by the Pareto dominance relation. We validate our method using two case studies. In the first study we simulate Design-Make-Test-Analyse (DMTA) cycles by alternating reward function updates and generative runs guided by that function. We show that the learned function adapts over time to yield compounds that score highly with respect to evaluation functions taken from the literature. In the second study we apply our algorithm to historical data from four real drug discovery projects. We show that our algorithm yields reward functions that outperform the predictive accuracy of human-defined functions, achieving an improvement of up to 0.4 in Spearman’s correlation against a ground truth evaluation function that encodes the target drug profile for that project. Our method provides an efficient data-driven way to configure reward functions for GMD, and serves as a strong baseline for future research into transformative approaches for the automation of drug discovery.

arxiv情報

著者 Marius Urbonas,Temitope Ajileye,Paul Gainer,Douglas Pires
発行日 2023-12-15 15:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク