Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization

要約

GPTファミリやLLaMAファミリのような大規模言語モデル(LLM)は、重要な文脈情報を捕捉し凝縮し、要約タスクにおいて最先端の性能を達成することにおいて、卓越した能力を示してきた。しかし、これらのモデルの幻覚問題に対するコミュニティーの懸念は高まり続けている。LLMは時に事実と異なる要約を生成することがあり、これは事実と異なる記述が決定的な誤診につながる可能性のある臨床領域のNLPタスク(例えば、臨床ノートの要約)において非常に有害である。人間のフィードバックを用いてLLMを微調整することで、LLMを生成する際に事実と矛盾しないように整列できる可能性が示されているが、このような学習手順には高品質な人間の注釈付きデータが必要であり、臨床領域でこれを入手するのは非常に高価である。本研究では、臨床ノート要約タスクにおける事実整合性を改善するための高品質なフィードバックデータを生成するために、人間の専門家の代わりにChatGPTを用いた新しいパイプラインを提案する。我々は特に編集フィードバックに注目する。というのも、最近の研究では、複雑な状況(広範な専門家の知識を必要とする臨床NLPタスクなど)におけるプリファレンスフィードバックによる人間の整合の欠点と、ドメインエキスパートから編集フィードバックを収集するいくつかの利点が議論されているからである。さらに、GPTは多くの臨床NLPタスク(例:USMLE QA)において専門家レベルに達しているが、臨床ノート要約タスクにおいてGPTがLMに対して専門家レベルの編集フィードバックを生成できるかどうかを議論した先行研究はあまりない。我々はこのギャップを埋めたいと考えている。最後に、我々の評価は、特に事実性の観点から、GPTの編集が人間のアライメントに利用できる可能性を示している。

要約(オリジナル)

Large Language Models (LLMs) like the GPT and LLaMA families have demonstrated exceptional capabilities in capturing and condensing critical contextual information and achieving state-of-the-art performance in the summarization task. However, community concerns about these models’ hallucination issues continue to rise. LLMs sometimes generate factually hallucinated summaries, which can be extremely harmful in the clinical domain NLP tasks (e.g., clinical note summarization), where factually incorrect statements can lead to critically erroneous diagnoses. Fine-tuning LLMs using human feedback has shown the promise of aligning LLMs to be factually consistent during generation, but such training procedure requires high-quality human-annotated data, which can be extremely expensive to get in the clinical domain. In this work, we propose a new pipeline using ChatGPT instead of human experts to generate high-quality feedback data for improving factual consistency in the clinical note summarization task. We focus specifically on edit feedback because recent work discusses the shortcomings of human alignment via preference feedback in complex situations (such as clinical NLP tasks that require extensive expert knowledge), as well as some advantages of collecting edit feedback from domain experts. In addition, although GPT has reached the expert level in many clinical NLP tasks (e.g., USMLE QA), there is not much previous work discussing whether GPT can generate expert-level edit feedback for LMs in the clinical note summarization task. We hope to fill this gap. Finally, our evaluations demonstrate the potential use of GPT edits in human alignment, especially from a factuality perspective.

arxiv情報

著者 Prakamya Mishra,Zonghai Yao,Shuwei Chen,Beining Wang,Rohan Mittal,Hong Yu
発行日 2023-11-03 13:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク