要約
最近の進歩にもかかわらず、分子の最適化のためのほとんどの計算方法は、単一または二重プロパティの最適化タスクに制約されており、低いスケーラビリティと新しい最適化タスクに対する一般化可能性に苦しんでいます。
一方、大規模な言語モデル(LLMS)は、新しいタスクに対する顕著な領域外の一般化可能性を示しています。
分子最適化のLLMSの可能性を実証するために、複雑なマルチプロパティ分子最適化タスクに特化した最初の高品質の命令調整データセットであるMumoinstructを導入します。
ムモ端を活用して、分子最適化のための一連の命令チューニングLLMSであるGellmosを開発します。
5つの領域内および5つのドメイン外のタスクにわたる広範な評価は、Gellmosが常に最先端のベースラインよりも優れていることを示しています。
Gellmosはまた、目に見えないタスクに優れたゼロショットの一般化を示し、強力な閉鎖型LLMを大幅に上回っています。
このような強力な一般化可能性は、分子最適化の基礎モデルとしてのGellmosの途方もない可能性を示していることを示しており、それによってリソース集約型の再訓練なしの新しい最適化タスクに取り組んでいます。
mumoinstruct、モデル、およびコードは、https://github.com/ninglab/gellmoからアクセスできます。
要約(オリジナル)
Despite recent advancements, most computational methods for molecule optimization are constrained to single- or double-property optimization tasks and suffer from poor scalability and generalizability to novel optimization tasks. Meanwhile, Large Language Models (LLMs) demonstrate remarkable out-of-domain generalizability to novel tasks. To demonstrate LLMs’ potential for molecule optimization, we introduce MuMOInstruct, the first high-quality instruction-tuning dataset specifically focused on complex multi-property molecule optimization tasks. Leveraging MuMOInstruct, we develop GeLLMOs, a series of instruction-tuned LLMs for molecule optimization. Extensive evaluations across 5 in-domain and 5 out-of-domain tasks demonstrate that GeLLMOs consistently outperform state-of-the-art baselines. GeLLMOs also exhibit outstanding zero-shot generalization to unseen tasks, significantly outperforming powerful closed-source LLMs. Such strong generalizability demonstrates the tremendous potential of GeLLMOs as foundational models for molecule optimization, thereby tackling novel optimization tasks without resource-intensive retraining. MuMOInstruct, models, and code are accessible through https://github.com/ninglab/GeLLMO.
arxiv情報
| 著者 | Vishal Dey,Xiao Hu,Xia Ning | 
| 発行日 | 2025-05-27 17:37:58+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
