Towards Evaluating and Building Versatile Large Language Models for Medicine

要約

この研究では、臨床状況における大規模言語モデル (LLM) のパフォーマンスを評価するために設計された包括的なベンチマークである MedS-Bench を紹介します。
多肢選択式の質問回答に焦点を当てた既存のベンチマークとは異なり、MedS-Bench は、臨床報告の要約、治療の推奨、診断、固有表現の認識、医療概念の説明など、11 の高レベルの臨床タスクにまたがっています。
私たちは、6 つの主要な LLM (MEDITRON、Mistral、InternLM 2、Llama 3、GPT-4、Claude-3.5 など) を数ショット プロンプトを使用して評価しました。その結果、最も洗練されたモデルでもこれらの複雑なタスクには苦労していることがわかりました。
これらの制限に対処するために、私たちは医療用の大規模な指示調整データセットである MedS-Ins を開発しました。
MedS-Ins は 58 の医学指向の言語コーパスで構成され、122 のタスクにわたって合計 1,350 万のサンプルがあります。
データセットの有用性を実証するために、軽量のオープンソースの医療言語モデルで命令チューニングを実行することによる概念実証実験を実施しました。
結果として得られたモデル MMedIns-Llama 3 は、ほぼすべての臨床タスクにわたって既存のモデルを大幅に上回りました。
臨床課題への LLM の適用におけるさらなる進歩を促進するために、私たちは MedS-Ins データセットに完全にアクセスできるようにし、研究コミュニティにその拡張への貢献を呼びかけました。さらに、私たちは MedS-Bench の動的なリーダーボードを立ち上げました。
テストセットを定期的に更新して進捗状況を追跡し、一般的な LLM の医療領域への適応を強化します。
リーダーボード: https://henrychur.github.io/MedS-Bench/。
Github: https://github.com/MAGIC-AI4Med/MedS-Ins。

要約(オリジナル)

In this study, we present MedS-Bench, a comprehensive benchmark designed to evaluate the performance of large language models (LLMs) in clinical contexts. Unlike existing benchmarks that focus on multiple-choice question answering, MedS-Bench spans 11 high-level clinical tasks, including clinical report summarization, treatment recommendations, diagnosis, named entity recognition, and medical concept explanation, among others. We evaluated six leading LLMs, e.g., MEDITRON, Mistral, InternLM 2, Llama 3, GPT-4, and Claude-3.5 using few-shot prompting, and found that even the most sophisticated models struggle with these complex tasks. To address these limitations, we developed MedS-Ins, a large-scale instruction tuning dataset for medicine. MedS-Ins comprises 58 medically oriented language corpora, totaling 13.5 million samples across 122 tasks. To demonstrate the dataset’s utility, we conducted a proof-of-concept experiment by performing instruction tuning on a lightweight, open-source medical language model. The resulting model, MMedIns-Llama 3, significantly outperformed existing models across nearly all clinical tasks. To promote further advancements in the application of LLMs to clinical challenges, we have made the MedS-Ins dataset fully accessible and invite the research community to contribute to its expansion.Additionally, we have launched a dynamic leaderboard for MedS-Bench, which we plan to regularly update the test set to track progress and enhance the adaptation of general LLMs to the medical domain. Leaderboard: https://henrychur.github.io/MedS-Bench/. Github: https://github.com/MAGIC-AI4Med/MedS-Ins.

arxiv情報

著者 Chaoyi Wu,Pengcheng Qiu,Jinxin Liu,Hongfei Gu,Na Li,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2024-09-05 16:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク