要約
この論文では、LLMSのオープンドメイン分子生成能力を評価する最初のベンチマークであるテキストベースのオープン分子生成ベンチマーク(TOMGベンチ)を提案します。
Tomgベンチには、分子編集(Moledit)、分子最適化(MoloPT)、およびカスタマイズされた分子生成(Molcustom)の3つの主要なタスクのデータセットが含まれます。
各主要なタスクにはさらに3つのサブタスクが含まれ、各サブタスクは5,000のテストサンプルで構成されています。
オープン分子生成評価の固有の複雑さを考えると、生成された分子の品質と精度の両方を測定するのに役立つ自動評価システムも開発しました。
25 LLMの包括的なベンチマークは、現在の制限と、テキスト誘導分子発見の改善の潜在的な領域を明らかにしています。
さらに、Tomg-Benchが提起した課題を解決するために確立された専門的な命令チューニングデータセットであるOpenMolinsを提案します。
OpenMolinsで微調整されたLlama3.1-8Bは、すべてのオープンソースの一般LLMを上回り、TomgベンチでGPT-3.5-ターボを46.5 \%上回ることさえできます。
コードとデータセットは、https://github.com/phenixace/tomg-benchから入手できます。
要約(オリジナル)
In this paper, we propose Text-based Open Molecule Generation Benchmark (TOMG-Bench), the first benchmark to evaluate the open-domain molecule generation capability of LLMs. TOMG-Bench encompasses a dataset of three major tasks: molecule editing (MolEdit), molecule optimization (MolOpt), and customized molecule generation (MolCustom). Each major task further contains three subtasks, while each subtask comprises 5,000 test samples. Given the inherent complexity of open molecule generation evaluation, we also developed an automated evaluation system that helps measure both the quality and the accuracy of the generated molecules. Our comprehensive benchmarking of 25 LLMs reveals the current limitations as well as potential areas for improvement in text-guided molecule discovery. Furthermore, we propose OpenMolIns, a specialized instruction tuning dataset established for solving challenges raised by TOMG-Bench. Fine-tuned on OpenMolIns, Llama3.1-8B could outperform all the open-source general LLMs, even surpassing GPT-3.5-turbo by 46.5\% on TOMG-Bench. Our codes and datasets are available through https://github.com/phenixace/TOMG-Bench.
arxiv情報
著者 | Jiatong Li,Junxian Li,Yunqing Liu,Dongzhan Zhou,Qing Li |
発行日 | 2025-04-01 16:18:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google