LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset

要約

化学は、創薬や材料科学などの多くの分野で重要な役割を果たしています。
GPT-4 などの大規模言語モデル (LLM) は、自然言語処理タスクでは顕著な能力を示しますが、既存の研究では、化学タスクではパフォーマンスが落胆するほど低いことが示されています。
しかし、この論文では、私たちが開発した LLM が化学タスクの包括的なセットで非常に強力な結果を達成でき、すべてのタスクにわたって最先端の GPT-4 を大幅に上回り、SoTA タスク固有のモデルに近づいていることを実証します。
私たちの成功の鍵は、SMolInstruct という命令チューニング用の大規模で包括的で高品質なデータセットです。
これには、細心の注意を払って選択された 14 の化学タスクと 300 万を超える高品質のサンプルが含まれており、化学の LLM のトレーニングと評価のための強固な基盤を築きます。
SMolInstruct に基づいて、一連のオープンソース LLM を微調整しました。その中で、Mistral が化学タスクに最適な基本モデルとして機能することがわかりました。
さらに、トレーニング可能なパラメーターの影響に関する分析を実施し、将来の研究のための洞察を提供します。

要約(オリジナル)

Chemistry plays a crucial role in many domains, such as drug discovery and material science. While large language models (LLMs) such as GPT-4 exhibit remarkable capabilities on natural language processing tasks, existing work shows their performance on chemistry tasks is discouragingly low. In this paper, however, we demonstrate that our developed LLMs can achieve very strong results on a comprehensive set of chemistry tasks, outperforming the most advanced GPT-4 across all the tasks by a substantial margin and approaching the SoTA task-specific models. The key to our success is a large-scale, comprehensive, high-quality dataset for instruction tuning named SMolInstruct. It contains 14 meticulously selected chemistry tasks and over three million high-quality samples, laying a solid foundation for training and evaluating LLMs for chemistry. Based on SMolInstruct, we fine-tune a set of open-source LLMs, among which, we find that Mistral serves as the best base model for chemistry tasks. We further conduct analysis on the impact of trainable parameters, providing insights for future research.

arxiv情報

著者 Botao Yu,Frazier N. Baker,Ziqi Chen,Xia Ning,Huan Sun
発行日 2024-02-14 18:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL パーマリンク