A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models

要約

患者は入院を理解するのが難しいことがよくありますが、医療従事者が説明できるリソースは限られています。
この研究では、医師のメモに基づいて患者の概要を生成する大規模言語モデルの可能性を調査し、生成された概要の忠実性と品質に対するトレーニング データの影響を研究します。
この目的を達成するために、私たちは幻覚に対する厳密なラベル付けプロトコルを開発し、2 人の医療専門家に 100 件の現実世界の要約と 100 件の生成された要約に注釈を付けてもらいました。
幻覚のないデータを微調整すると、関連情報を維持しながら、Llama 2 の概要ごとに幻覚が 2.60 から 1.55 に効果的に減少することを示します。
効果は依然として存在しますが、5 つの例でプロンプトを表示すると、GPT-4 の効果ははるかに小さくなります (0.70 ~ 0.40)。
また、幻覚のない改良された学習データを用いた定性的な評価も行っています。
GPT-4 はゼロショット設定でも非常に良好な結果を示します。
一般的な定量的指標は忠実性や品質とあまり相関していないことがわかりました。
最後に、GPT-4 の自動幻覚検出をテストし、有望な結果が得られます。

要約(オリジナル)

Patients often face difficulties in understanding their hospitalizations, while healthcare workers have limited resources to provide explanations. In this work, we investigate the potential of large language models to generate patient summaries based on doctors’ notes and study the effect of training data on the faithfulness and quality of the generated summaries. To this end, we develop a rigorous labeling protocol for hallucinations, and have two medical experts annotate 100 real-world summaries and 100 generated summaries. We show that fine-tuning on hallucination-free data effectively reduces hallucinations from 2.60 to 1.55 per summary for Llama 2, while preserving relevant information. Although the effect is still present, it is much smaller for GPT-4 when prompted with five examples (0.70 to 0.40). We also conduct a qualitative evaluation using hallucination-free and improved training data. GPT-4 shows very good results even in the zero-shot setting. We find that common quantitative metrics do not correlate well with faithfulness and quality. Finally, we test GPT-4 for automatic hallucination detection, which yields promising results.

arxiv情報

著者 Stefan Hegselmann,Shannon Zejiang Shen,Florian Gierse,Monica Agrawal,David Sontag,Xiaoyi Jiang
発行日 2024-02-23 16:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク