BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning

要約

ChatGPT などの大規模言語モデル (LLM) は、大規模で多様な命令に従うコーパスに基づいて微調整されており、新しいタスクに一般化できます。
ただし、これらの命令調整された LLM は、ドメイン知識、詳細なテキスト理解、構造化データ抽出を必要とする特殊な医療自然言語理解 (NLU) タスクではパフォーマンスが低いことがよくあります。
このギャップを埋めるために、(1) スパン抽出と多肢選択質問応答 (QA) を通じて、7 つの重要な NLU タスクに対する統一プロンプト形式を提案します。(2) 命令チューニング データセット MNLU-Instruct をキュレーションします。
(3) MNLU-Instruct で BioMistral を微調整することにより、一般化可能な医療 NLU モデルである BioMistral-NLU を開発します。
私たちは、広く採用されている 2 つの医療 NLU ベンチマーク、生物医学言語理解評価 (BLUE) と生物医学言語理解および推論ベンチマーク (BLURB) から、6 つの重要な NLU タスクにわたってゼロショット設定で BioMistral-NLU を評価します。
私たちの実験では、BioMistral-NLU がオリジナルの BioMistral だけでなく、独自の LLM (ChatGPT および GPT-4) よりも優れていることが示されています。
データセットに依存しないプロンプト戦略と、多様な NLU タスクにわたる指示調整ステップにより、多様な医療 NLU タスクにわたる LLM の汎用性が向上します。
私たちのアブレーション実験では、トレーニング インスタンスの総数が一定のままであっても、さまざまなタスクに対する命令チューニングにより、下流のゼロショット汎化が強化されることが示されています。

要約(オリジナル)

Large language models (LLMs) such as ChatGPT are fine-tuned on large and diverse instruction-following corpora, and can generalize to new tasks. However, those instruction-tuned LLMs often perform poorly in specialized medical natural language understanding (NLU) tasks that require domain knowledge, granular text comprehension, and structured data extraction. To bridge the gap, we: (1) propose a unified prompting format for 7 important NLU tasks, % through span extraction and multi-choice question-answering (QA), (2) curate an instruction-tuning dataset, MNLU-Instruct, utilizing diverse existing open-source medical NLU corpora, and (3) develop BioMistral-NLU, a generalizable medical NLU model, through fine-tuning BioMistral on MNLU-Instruct. We evaluate BioMistral-NLU in a zero-shot setting, across 6 important NLU tasks, from two widely adopted medical NLU benchmarks: Biomedical Language Understanding Evaluation (BLUE) and Biomedical Language Understanding and Reasoning Benchmark (BLURB). Our experiments show that our BioMistral-NLU outperforms the original BioMistral, as well as the proprietary LLMs – ChatGPT and GPT-4. Our dataset-agnostic prompting strategy and instruction tuning step over diverse NLU tasks enhance LLMs’ generalizability across diverse medical NLU tasks. Our ablation experiments show that instruction-tuning on a wider variety of tasks, even when the total number of training instances remains constant, enhances downstream zero-shot generalization.

arxiv情報

著者 Yujuan Velvin Fu,Giridhar Kaushik Ramachandran,Namu Park,Kevin Lybarger,Fei Xia,Ozlem Uzuner,Meliha Yetisgen
発行日 2024-10-24 17:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク