Efficient Evolutionary Search Over Chemical Space with Large Language Models

要約

分子発見を最適化問題として定式化すると、最適化の目的が微分不可能になる可能性があるため、重大な計算上の課題が生じます。
分子発見におけるブラックボックス目標を最適化するためによく使用される進化的アルゴリズム (EA) は、ランダムな突然変異と交叉を実行することで化学空間を横断し、高価な多数の目標評価につながります。
この研究では、化学を意識したラージ言語モデル (LLM) を EA に組み込むことで、この欠点を改善します。
つまり、大規模な化学情報コーパスで訓練された LLM を使用して、EA での交差操作と突然変異操作を再設計します。
当社は、特性の最適化、分子の再発見、構造ベースの薬剤設計を含む複数のタスクについて、市販モデルとオープンソース モデルの両方で広範な実証研究を実施し、LLM と EA を併用すると、単一およびオープンソースのすべてのベースライン モデルよりも優れたパフォーマンスが得られることを実証しています。
多目的設定。
私たちのアルゴリズムが最終的な解の品質と収束速度の両方を向上させ、それによって必要な客観的評価の数が減少することを実証します。
コードは http://github.com/zoom-wang112358/MOLLEO で入手できます。

要約(オリジナル)

Molecular discovery, when formulated as an optimization problem, presents significant computational challenges because optimization objectives can be non-differentiable. Evolutionary Algorithms (EAs), often used to optimize black-box objectives in molecular discovery, traverse chemical space by performing random mutations and crossovers, leading to a large number of expensive objective evaluations. In this work, we ameliorate this shortcoming by incorporating chemistry-aware Large Language Models (LLMs) into EAs. Namely, we redesign crossover and mutation operations in EAs using LLMs trained on large corpora of chemical information. We perform extensive empirical studies on both commercial and open-source models on multiple tasks involving property optimization, molecular rediscovery, and structure-based drug design, demonstrating that the joint usage of LLMs with EAs yields superior performance over all baseline models across single- and multi-objective settings. We demonstrate that our algorithm improves both the quality of the final solution and convergence speed, thereby reducing the number of required objective evaluations. Our code is available at http://github.com/zoom-wang112358/MOLLEO

arxiv情報

著者 Haorui Wang,Marta Skreta,Cher-Tian Ser,Wenhao Gao,Lingkai Kong,Felix Strieth-Kalthoff,Chenru Duan,Yuchen Zhuang,Yue Yu,Yanqiao Zhu,Yuanqi Du,Alán Aspuru-Guzik,Kirill Neklyudov,Chao Zhang
発行日 2024-07-02 16:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, physics.chem-ph パーマリンク