A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models

要約

患者は入院を理解するのが難しいことがよくありますが、医療従事者が説明できるリソースは限られています。
この研究では、医師のメモに基づいて患者の概要を生成する大規模言語モデルの可能性を調査し、生成された概要の忠実性と品質に対するトレーニング データの影響を研究します。
この目的を達成するために、私たちは、(i) 医療文書の誤りに対する厳格なラベル付けプロトコル、および (ii) 100 件の医師が作成した要約と 100 件の生成された要約の注釈付き幻覚の公的に利用可能なデータセットをリリースします。
幻覚のないデータを微調整すると、関連情報を維持しながら、Llama 2 の概要ごとに幻覚が 2.60 から 1.55 に効果的に減少することを示します。
数ショットのサンプルに幻覚がない場合、GPT-4 (0.70 ~ 0.40) に対しても同様の効果が観察されます。
また、幻覚のない改良された学習データを用いた定性評価も行っています。
一般的な定量的指標は忠実性や品質とあまり相関していないことがわかりました。
最後に、GPT-4 の自動幻覚検出をテストします。これは、一般的なベースラインを明らかに上回っています。

要約(オリジナル)

Patients often face difficulties in understanding their hospitalizations, while healthcare workers have limited resources to provide explanations. In this work, we investigate the potential of large language models to generate patient summaries based on doctors’ notes and study the effect of training data on the faithfulness and quality of the generated summaries. To this end, we release (i) a rigorous labeling protocol for errors in medical texts and (ii) a publicly available dataset of annotated hallucinations in 100 doctor-written and 100 generated summaries. We show that fine-tuning on hallucination-free data effectively reduces hallucinations from 2.60 to 1.55 per summary for Llama 2, while preserving relevant information. We observe a similar effect on GPT-4 (0.70 to 0.40), when the few-shot examples are hallucination-free. We also conduct a qualitative evaluation using hallucination-free and improved training data. We find that common quantitative metrics do not correlate well with faithfulness and quality. Finally, we test GPT-4 for automatic hallucination detection, which clearly outperforms common baselines.

arxiv情報

著者 Stefan Hegselmann,Shannon Zejiang Shen,Florian Gierse,Monica Agrawal,David Sontag,Xiaoyi Jiang
発行日 2024-06-25 17:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク