A Dataset and Benchmark for Hospital Course Summarization with Adapted Large Language Models

要約

入院経過概要 (BHC) は、患者の入院期間を要約した臨床文書です。
大規模言語モデル (LLM) は、現実世界のタスクの自動化において顕著な機能を示していますが、臨床ノートからの BHC の合成などの医療アプリケーションに対するその機能は示されていません。
我々は、LLM を BHC 合成に適応させるために、臨床記録と簡単な病院コース (BHC) のペアをカプセル化した、新しい前処理されたデータセット MIMIC-IV-BHC を導入します。
さらに、2 つの汎用 LLM と 3 つのヘルスケア対応 LLM の要約パフォーマンスのベンチマークを紹介します。
臨床ノートを入力として使用し、プロンプトベース (コンテキスト内学習を使用) と微調整ベースの適応戦略を 3 つのオープンソース LLM (Clinical-T5-Large、Llama2-13B、FLAN-UL2) と 2 つの独自の LLM に適用します。
LLM (GPT-3.5、GPT-4)。
自然言語類似性メトリクスを使用して、複数のコンテキスト長の入力にわたってこれらの LLM を評価します。
さらに、5 人の臨床医による臨床研究を実施し、臨床医が作成した BHC と LLM が作成した BHC を 30 サンプルにわたって比較し、要約の質の向上を通じて臨床上の意思決定を強化する可能性に焦点を当てています。
BLEU と BERT スコアの定量的評価メトリクスを考慮すると、Llama2-13B 微調整 LLM が他のドメイン適応モデルよりも優れていることがわかります。
インコンテキスト学習を備えた GPT-4 は、微調整された Llama2-13B よりも臨床ノート入力のコンテキスト長の増加に対してより堅牢であることが示されています。
同等の定量的指標にもかかわらず、読者調査では、Llama2-13B の微調整された要約と元の要約の両方と比較して、コンテキスト内学習を使用して GPT-4 によって生成された要約が大幅に好まれていることが示されており、定性的臨床評価の必要性が強調されています。

要約(オリジナル)

Brief hospital course (BHC) summaries are clinical documents that summarize a patient’s hospital stay. While large language models (LLMs) depict remarkable capabilities in automating real-world tasks, their capabilities for healthcare applications such as synthesizing BHCs from clinical notes have not been shown. We introduce a novel pre-processed dataset, the MIMIC-IV-BHC, encapsulating clinical note and brief hospital course (BHC) pairs to adapt LLMs for BHC synthesis. Furthermore, we introduce a benchmark of the summarization performance of two general-purpose LLMs and three healthcare-adapted LLMs. Using clinical notes as input, we apply prompting-based (using in-context learning) and fine-tuning-based adaptation strategies to three open-source LLMs (Clinical-T5-Large, Llama2-13B, FLAN-UL2) and two proprietary LLMs (GPT-3.5, GPT-4). We evaluate these LLMs across multiple context-length inputs using natural language similarity metrics. We further conduct a clinical study with five clinicians, comparing clinician-written and LLM-generated BHCs across 30 samples, focusing on their potential to enhance clinical decision-making through improved summary quality. We observe that the Llama2-13B fine-tuned LLM outperforms other domain-adapted models given quantitative evaluation metrics of BLEU and BERT-Score. GPT-4 with in-context learning shows more robustness to increasing context lengths of clinical note inputs than fine-tuned Llama2-13B. Despite comparable quantitative metrics, the reader study depicts a significant preference for summaries generated by GPT-4 with in-context learning compared to both Llama2-13B fine-tuned summaries and the original summaries, highlighting the need for qualitative clinical evaluation.

arxiv情報

著者 Asad Aali,Dave Van Veen,Yamin Ishraq Arefeen,Jason Hom,Christian Bluethgen,Eduardo Pontes Reis,Sergios Gatidis,Namuun Clifford,Joseph Daws,Arash S. Tehrani,Jangwon Kim,Akshay S. Chaudhari
発行日 2024-08-26 16:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク