A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course Summarization

要約

入院の長い形式の臨床要約は、臨床医と患者の両方に役立つ可能性があるため、現実世界で重要です。
要約の忠実度は、臨床現場で安全に使用するために重要です。
抽象化されたシステムの限界と既存の評価指標の適合性をよりよく理解するために、患者の簡易病院コースのモデル生成された要約について、きめ細かいヒューマン アノテーションに対して忠実度指標のベンチマークを行います。
それぞれが複雑な病歴を持つ HIV 患者のコホートについて、患者の入院と要約のコーパスを作成します。
アノテーターは要約とソースノートを提示され、手動で強調表示された要約要素 (状態や投薬などの臨床エンティティ、および「フォローアップ」などのアクション) を次の 3 つのカテゴリのいずれかに分類するよう求められます。
提案された忠実度指標の広範なセットをメタ評価し、指標全体でドメイン適応の重要性を調査します (例: ドメイン内事前トレーニングと指標微調整の影響)。
、ソース サマリー アラインメントの使用、および既存のメトリックのアンサンブルから単一のメトリックを抽出する効果。
臨床テキストにさらされていない既製の指標は、十分に相関していますが、要約の抽出性に過度に依存しています。
長い形式の臨床物語の要約の実用的なガイドとして、一度に 1 つの要約文と関連するソース コンテキストの最小限のセットが提供されると、ほとんどのメトリックが人間の判断と最もよく相関することがわかります。

要約(オリジナル)

Long-form clinical summarization of hospital admissions has real-world significance because of its potential to help both clinicians and patients. The faithfulness of summaries is critical to their safe usage in clinical settings. To better understand the limitations of abstractive systems, as well as the suitability of existing evaluation metrics, we benchmark faithfulness metrics against fine-grained human annotations for model-generated summaries of a patient’s Brief Hospital Course. We create a corpus of patient hospital admissions and summaries for a cohort of HIV patients, each with complex medical histories. Annotators are presented with summaries and source notes, and asked to categorize manually highlighted summary elements (clinical entities like conditions and medications as well as actions like ‘following up’) into one of three categories: “Incorrect,” “Missing,” and “Not in Notes.” We meta-evaluate a broad set of proposed faithfulness metrics and, across metrics, explore the importance of domain adaptation (e.g. the impact of in-domain pre-training and metric fine-tuning), the use of source-summary alignments, and the effects of distilling a single metric from an ensemble of pre-existing metrics. Off-the-shelf metrics with no exposure to clinical text correlate well yet overly rely on summary extractiveness. As a practical guide to long-form clinical narrative summarization, we find that most metrics correlate best to human judgments when provided with one summary sentence at a time and a minimal set of relevant source context.

arxiv情報

著者 Griffin Adams,Jason Zucker,Noémie Elhadad
発行日 2023-03-07 14:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク