Small Molecule Optimization with Large Language Models

要約

大規模言語モデルの最近の進歩により、生成分子医薬品設計の新たな可能性が開かれました。
私たちは、計算されたプロパティを持つ 1 億 1000 万分子の新しいコーパス、合計 400 億トークンに基づいて微調整された 2 つの言語モデル、Chemoptica と Chemma を紹介します。
これらのモデルは、指定された特性を持つ分子を生成し、限られたサンプルから新しい分子特性を予測する際に強力なパフォーマンスを示します。
ブラックボックスオラクルへのアクセスが制限されている場合に、言語モデルを活用して任意の特性に合わせて分子を最適化する新しい最適化アルゴリズムを導入します。
私たちのアプローチは、遺伝的アルゴリズム、拒絶サンプリング、および即時最適化からのアイデアを組み合わせています。
以前の方法と比較して実用的な分子最適化で 8% 向上するなど、複数の分子最適化ベンチマークで最先端のパフォーマンスを実現します。
トレーニング コーパス、言語モデル、最適化アルゴリズムを一般公開します。

要約(オリジナル)

Recent advancements in large language models have opened new possibilities for generative molecular drug design. We present Chemlactica and Chemma, two language models fine-tuned on a novel corpus of 110M molecules with computed properties, totaling 40B tokens. These models demonstrate strong performance in generating molecules with specified properties and predicting new molecular characteristics from limited samples. We introduce a novel optimization algorithm that leverages our language models to optimize molecules for arbitrary properties given limited access to a black box oracle. Our approach combines ideas from genetic algorithms, rejection sampling, and prompt optimization. It achieves state-of-the-art performance on multiple molecular optimization benchmarks, including an 8% improvement on Practical Molecular Optimization compared to previous methods. We publicly release the training corpus, the language models and the optimization algorithm.

arxiv情報

著者 Philipp Guevorguian,Menua Bedrosian,Tigran Fahradyan,Gayane Chilingaryan,Hrant Khachatrian,Armen Aghajanyan
発行日 2024-07-26 17:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, q-bio.QM パーマリンク