要約
自動要約技術 (Paice, 1990; Kupiec et al, 1995) の目標は、最も重要な情報に焦点を当ててテキストを要約することです。
生成大規模言語モデル (LLM) は堅牢なサマライザーであることが示されていますが、より強力な LLM では、従来のメトリックでは結果として得られるパフォーマンスを把握するのが困難です (Goyal et al、2022)。
医療などの安全性が重要な領域では、特に LLM が結果の概要で重要な情報を省略する可能性を考慮すると、より厳密な評価が必要です。
私たちは医療要約の新しい省略ベンチマークである MED-OMIT を提案します。
医師と患者の会話と生成された要約が与えられると、MED-OMIT はチャットを一連の事実に分類し、要約から省略されたものを特定します。
さらに、下流の臨床タスクである鑑別診断(DDx)の生成に対する各事実の影響をシミュレートすることによって、事実の重要性を判断することを提案します。
MED-OMIT は、事実の重要性を分類し、診断を裏付ける証拠または否定する証拠としてそれらを分類する LLM プロンプトベースのアプローチを活用します。
私たちは、公開されている患者と医師の会話のデータセットに基づいて MED-OMIT を評価し、MED-OMIT が代替指標よりも省略をうまく捉えていることを発見しました。
要約(オリジナル)
The goal of automated summarization techniques (Paice, 1990; Kupiec et al, 1995) is to condense text by focusing on the most critical information. Generative large language models (LLMs) have shown to be robust summarizers, yet traditional metrics struggle to capture resulting performance (Goyal et al, 2022) in more powerful LLMs. In safety-critical domains such as medicine, more rigorous evaluation is required, especially given the potential for LLMs to omit important information in the resulting summary. We propose MED-OMIT, a new omission benchmark for medical summarization. Given a doctor-patient conversation and a generated summary, MED-OMIT categorizes the chat into a set of facts and identifies which are omitted from the summary. We further propose to determine fact importance by simulating the impact of each fact on a downstream clinical task: differential diagnosis (DDx) generation. MED-OMIT leverages LLM prompt-based approaches which categorize the importance of facts and cluster them as supporting or negating evidence to the diagnosis. We evaluate MED-OMIT on a publicly-released dataset of patient-doctor conversations and find that MED-OMIT captures omissions better than alternative metrics.
arxiv情報
著者 | Elliot Schumacher,Daniel Rosenthal,Varun Nair,Luladay Price,Geoffrey Tso,Anitha Kannan |
発行日 | 2023-11-14 16:46:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google