Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models

要約

大規模言語モデル (LLM) は、その優れたタスク処理能力と革新的な出力により、さまざまな分野にわたって大幅な進歩をもたらしてきました。
しかし、生体分子研究などの特殊な領域における彼らの熟練度は依然として限られています。
この課題に対処するために、生体分子ドメイン向けに設計された包括的な指示データセットである Mol-structs を紹介します。
Mol-命令には、分子指向の命令、タンパク質指向の命令、生体分子テキストの命令という 3 つの主要なコンポーネントが含まれています。
各コンポーネントは、生体分子の特徴と挙動に関する LLM の理解と予測能力を向上させることを目的としています。
私たちは、LLM に関する広範な命令チューニング実験を通じて、生体分子研究の複雑な領域における大規模モデルのパフォーマンスを向上させる Mol 命令の有効性を実証し、それによって生体分子研究コミュニティの進歩を促進します。
Mol-指示は進行中の研究のために一般に公開されており、適用性を高めるために定期的に更新されます。

要約(オリジナル)

Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a comprehensive instruction dataset designed for the biomolecular domain. Mol-Instructions encompasses three key components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions. Each component aims to improve the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on LLMs, we demonstrate the effectiveness of Mol-Instructions in enhancing large models’ performance in the intricate realm of biomolecular studies, thus fostering progress in the biomolecular research community. Mol-Instructions is publicly available for ongoing research and will undergo regular updates to enhance its applicability.

arxiv情報

著者 Yin Fang,Xiaozhuan Liang,Ningyu Zhang,Kangwei Liu,Rui Huang,Zhuo Chen,Xiaohui Fan,Huajun Chen
発行日 2023-10-02 15:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.IR, cs.LG, q-bio.QM パーマリンク