要約
ドメイン固有の命令データセットを導入し、マルチタスク学習原理と組み合わせた場合のその影響を調べることにより、生物医学的自然言語処理 (BioNLP) における大規模言語モデル (LLM) のパフォーマンスを強化します。
私たちは、LLM (LLaMA 1 & 2、7B & 13B バージョン) を命令調整するための 25,005 命令からなる BioInstruct を作成しました。
この命令は、人間が厳選した 80 個の命令からランダムに抽出された 3 つのシード サンプルを GPT-4 言語モデルにプロンプトすることによって作成されました。
パラメータ効率の高い微調整のために、Low-Rank Adaptation (LoRA) を採用しました。
次に、これらの命令調整された LLM をいくつかの BioNLP タスクで評価しました。これらのタスクは、質問応答 (QA)、情報抽出 (IE)、およびテキスト生成 (GEN) の 3 つの主要なカテゴリに分類できます。
また、命令のカテゴリ (QA、IE、生成など) がモデルのパフォーマンスに影響を与えるかどうかも調べました。
命令チューニングされていない LLM と比較すると、命令チューニングされた LLM は、QA で 17.3%、IE で 5.7%、生成タスクで 96% という顕著なパフォーマンス向上を示しました。
7B パラメーターで命令調整された LLaMA 1 モデルは、膨大なドメイン固有のデータやさまざまなタスクを使用して LLaMA 1 から微調整された生物医学ドメインの他の LLM と競合するか、さらにはそれを上回りました。
私たちの結果は、密接に関連したタスクで命令の微調整を行うと、パフォーマンスの向上が大幅に向上することも示しています。
私たちの発見はマルチタスク学習の観察結果と一致しており、2 つのタスク間の相乗効果を示唆しています。
BioInstruct データセットは貴重なリソースとして機能し、命令調整された LLM が最高のパフォーマンスの BioNLP アプリケーションをもたらします。
要約(オリジナル)
To enhance the performance of large language models (LLMs) in biomedical natural language processing (BioNLP) by introducing a domain-specific instruction dataset and examining its impact when combined with multi-task learning principles. We created the BioInstruct, comprising 25,005 instructions to instruction-tune LLMs(LLaMA 1 & 2, 7B & 13B version). The instructions were created by prompting the GPT-4 language model with three-seed samples randomly drawn from an 80 human curated instructions. We employed Low-Rank Adaptation(LoRA) for parameter-efficient fine-tuning. We then evaluated these instruction-tuned LLMs on several BioNLP tasks, which can be grouped into three major categories: question answering(QA), information extraction(IE), and text generation(GEN). We also examined whether categories(e.g., QA, IE, and generation) of instructions impact model performance. Comparing with LLMs without instruction-tuned, our instruction-tuned LLMs demonstrated marked performance gains: 17.3% in QA, 5.7% in IE, and 96% in Generation tasks. Our 7B-parameter instruction-tuned LLaMA 1 model was competitive or even surpassed other LLMs in the biomedical domain that were also fine-tuned from LLaMA 1 with vast domain-specific data or a variety of tasks. Our results also show that the performance gain is significantly higher when instruction fine-tuning is conducted with closely related tasks. Our findings align with the observations of multi-task learning, suggesting the synergies between two tasks. The BioInstruct dataset serves as a valuable resource and instruction tuned LLMs lead to the best performing BioNLP applications.
arxiv情報
著者 | Hieu Tran,Zhichao Yang,Zonghai Yao,Hong Yu |
発行日 | 2023-11-06 15:05:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google