Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation

要約

GPT-4やGeminiなどの独自の大規模な言語モデル(LLM)は、臨床テキスト要約タスクに有望な能力を実証しています。
ただし、患者のデータプライバシーの懸念と計算コストにより、多くの医療提供者は、外部の汎用LLMよりも小さなローカルホストモデルを使用することを好みます。
この研究では、オープンソースLLAMA-2 130億パラメーターモデルの包括的なドメインおよびタスク固有の適応プロセスを提示し、外来患者ドクターの対話から高品質の臨床ノートを生成できるようにします。
私たちのプロセスには、AIと人間の両方のフィードバックからの継続的なトレーニング、監視付きの微調整、および強化学習が組み込まれています。
教師モデルとしてGemini 1.0 Proを使用して、ポリティでの補強学習を実行するために、新しいアプローチ、DistillDirectを導入しました。
結果として得られたモデルであるLlama-Clinicは、医師によって作成されたものに匹敵する品質に匹敵する臨床ノートを生成できます。
盲検化された医師の読者の研究では、個々の評価の大半(90.4%)は、Llama-Clinicによって生成されたメモを、実世界の準備、完全性、および精度という3つの基準すべてにわたって「許容可能」以上と評価しました。
より挑戦的な「評価と計画」のセクションでは、Llama-Clinicは、医師が執筆したメモ(4.1/5)よりも現実世界の準備でより高い得点(4.2/5)を記録しました。
将来の臨床ノート生成タスクの重要な考慮事項を強調し、LLMSに頼ってこれを臨床診療のために決定するのではなく、ベストプラクティスノート形式を事前に定義することの重要性を強調します。

要約(オリジナル)

Proprietary Large Language Models (LLMs) such as GPT-4 and Gemini have demonstrated promising capabilities in clinical text summarization tasks. However, due to patient data privacy concerns and computational costs, many healthcare providers prefer using small, locally-hosted models over external generic LLMs. This study presents a comprehensive domain- and task-specific adaptation process for the open-source LLaMA-2 13 billion parameter model, enabling it to generate high-quality clinical notes from outpatient patient-doctor dialogues. Our process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced a new approach, DistillDirect, for performing on-policy reinforcement learning with Gemini 1.0 Pro as the teacher model. Our resulting model, LLaMA-Clinic, can generate clinical notes comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as ‘acceptable’ or higher across all three criteria: real-world readiness, completeness, and accuracy. In the more challenging ‘Assessment and Plan’ section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness than physician-authored notes (4.1/5). We highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format, rather than relying on LLMs to determine this for clinical practice.

arxiv情報

著者 Hanyin Wang,Chufan Gao,Bolun Liu,Qiping Xu,Guleid Hussein,Mohamad El Labban,Kingsley Iheasirim,Hariprasad Korsapati,Chuck Outcalt,Jimeng Sun
発行日 2025-05-16 13:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク