A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients

要約

退院サマリーの作成は、臨床現場において重要だが時間のかかる作業であり、関連する患者情報を伝達し、治療の継続を促進するために不可欠です。
大規模言語モデル (LLM) の最近の進歩により、複雑な医学文書を理解して要約する機能が大幅に強化されました。
この研究の目的は、LLM が手動での要約の負担を軽減し、ワークフローの効率を合理化し、医療現場で情報に基づいた意思決定をサポートする方法を探ることです。
1,099 人の肺がん患者のコホートからの臨床ノートが利用され、50 人の患者のサブセットがテスト目的に使用され、102 人の患者がモデルの微調整に使用されました。
この研究では、退院サマリーの生成における GPT-3.5、GPT-4、GPT-4o、LLaMA 3 8b を含む複数の LLM のパフォーマンスを評価します。
評価指標には、トークンレベルの分析 (BLEU、ROUGE-1、ROUGE-2、ROUGE-L) と、モデルが生成した要約と医師が作成したゴールド スタンダードの間の意味的類似性スコアが含まれます。
LLaMA 3 8b は、そのパフォーマンスの安定性を調べるために、さまざまな長さの臨床ノートでさらにテストされました。
この調査では、LLM 間で要約能力に顕著なばらつきがあることがわかりました。
GPT-4o と微調整された LLaMA 3 は、優れたトークンレベルの評価メトリクスを実証しましたが、LLaMA 3 は、さまざまな入力長にわたって一貫して簡潔な要約を生成しました。
意味的類似性スコアは、GPT-4o と LLaMA 3 が臨床関連性を把握する際の主要なモデルであることを示しました。
この研究は、退院概要を作成するための LLM の有効性に関する洞察に貢献し、さまざまな臨床状況にわたって明確さと関連性を維持する点で LLaMA 3 の強力なパフォーマンスを強調しています。
これらの調査結果は、文書化の精度と効率を向上させ、最終的には医療現場での患者ケアと運用能力を向上させる自動要約ツールの可能性を強調しています。

要約(オリジナル)

Generating discharge summaries is a crucial yet time-consuming task in clinical practice, essential for conveying pertinent patient information and facilitating continuity of care. Recent advancements in large language models (LLMs) have significantly enhanced their capability in understanding and summarizing complex medical texts. This research aims to explore how LLMs can alleviate the burden of manual summarization, streamline workflow efficiencies, and support informed decision-making in healthcare settings. Clinical notes from a cohort of 1,099 lung cancer patients were utilized, with a subset of 50 patients for testing purposes, and 102 patients used for model fine-tuning. This study evaluates the performance of multiple LLMs, including GPT-3.5, GPT-4, GPT-4o, and LLaMA 3 8b, in generating discharge summaries. Evaluation metrics included token-level analysis (BLEU, ROUGE-1, ROUGE-2, ROUGE-L) and semantic similarity scores between model-generated summaries and physician-written gold standards. LLaMA 3 8b was further tested on clinical notes of varying lengths to examine the stability of its performance. The study found notable variations in summarization capabilities among LLMs. GPT-4o and fine-tuned LLaMA 3 demonstrated superior token-level evaluation metrics, while LLaMA 3 consistently produced concise summaries across different input lengths. Semantic similarity scores indicated GPT-4o and LLaMA 3 as leading models in capturing clinical relevance. This study contributes insights into the efficacy of LLMs for generating discharge summaries, highlighting LLaMA 3’s robust performance in maintaining clarity and relevance across varying clinical contexts. These findings underscore the potential of automated summarization tools to enhance documentation precision and efficiency, ultimately improving patient care and operational capability in healthcare settings.

arxiv情報

著者 Yiming Li,Fang Li,Kirk Roberts,Licong Cui,Cui Tao,Hua Xu
発行日 2024-11-06 10:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク