Large Language Models in Healthcare: A Comprehensive Benchmark

要約

臨床医を支援するための大規模言語モデル (LLM) の採用は、注目を集めています。
既存の作品は主に、評価のための回答選択肢を備えたクローズエンドの質問応答 (QA) タスクを採用しています。
ただし、臨床上の意思決定の多くには、事前に設定された選択肢を使用せずに自由形式の質問に答えることが含まれます。
クリニックにおける LLM をより深く理解するために、ベンチマークの ClinicBench を構築します。
まず、多様な臨床言語の生成、理解、推論タスクをカバーする 11 の既存のデータセットを収集します。
さらに、実際の診療に近い 6 つの新しいデータセットと複雑な臨床タスク、つまり、紹介 QA、治療の推奨、入院 (長い文書) の要約、患者教育、薬理学 QA、新興薬の薬物相互作用を構築します。
私たちは、ゼロショット設定と少数ショット設定の両方で 22 個の LLM の広範な評価を実施しました。
最後に、LLM の臨床的有用性を評価するために医療専門家を招待します。

要約(オリジナル)

The adoption of large language models (LLMs) to assist clinicians has attracted remarkable attention. Existing works mainly adopt the close-ended question-answering (QA) task with answer options for evaluation. However, many clinical decisions involve answering open-ended questions without pre-set options. To better understand LLMs in the clinic, we construct a benchmark ClinicBench. We first collect eleven existing datasets covering diverse clinical language generation, understanding, and reasoning tasks. Furthermore, we construct six novel datasets and complex clinical tasks that are close to real-world practice, i.e., referral QA, treatment recommendation, hospitalization (long document) summarization, patient education, pharmacology QA and drug interaction for emerging drugs. We conduct an extensive evaluation of twenty-two LLMs under both zero-shot and few-shot settings. Finally, we invite medical experts to evaluate the clinical usefulness of LLMs.

arxiv情報

著者 Andrew Liu,Hongjian Zhou,Yining Hua,Omid Rohanian,Anshul Thakur,Lei Clifton,David A. Clifton
発行日 2024-06-25 17:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク