Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models

要約

大規模言語モデル (LLM) は、その優れたタスク処理能力と革新的な出力により、さまざまな分野にわたって大幅な進歩をもたらしてきました。
しかし、生体分子研究などの特殊な領域における彼らの熟練度は依然として限られています。
この課題に対処するために、生体分子の領域向けに特別に設計された、綿密に精選された包括的な指示データセットである Mol-structs を導入します。
Mol-命令は、分子指向の命令、タンパク質指向の命令、生体分子テキスト命令の 3 つの重要なコンポーネントで構成されており、それぞれが生体分子の特徴と挙動に関する LLM の理解と予測能力を強化するために厳選されています。
代表的な LLM に対する広範な命令チューニング実験を通じて、生体分子研究の複雑な領域内で大規模モデルの適応性と認知的鋭さを強化する Mol 命令の有効性を強調し、それによって生体分子研究コミュニティの進歩を促進します。
Mol-指示は、将来の研究活動のために一般に公開されており、適用性を高めるために継続的に更新されます。

要約(オリジナル)

Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a meticulously curated, comprehensive instruction dataset expressly designed for the biomolecular realm. Mol-Instructions is composed of three pivotal components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions, each curated to enhance the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on the representative LLM, we underscore the potency of Mol-Instructions to enhance the adaptability and cognitive acuity of large models within the complex sphere of biomolecular studies, thereby promoting advancements in the biomolecular research community. Mol-Instructions is made publicly accessible for future research endeavors and will be subjected to continual updates for enhanced applicability.

arxiv情報

著者 Yin Fang,Xiaozhuan Liang,Ningyu Zhang,Kangwei Liu,Rui Huang,Zhuo Chen,Xiaohui Fan,Huajun Chen
発行日 2023-08-29 17:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.IR, cs.LG, q-bio.QM パーマリンク