A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course Summarization


抽象化されたシステムの限界と既存の評価指標の適合性をよりよく理解するために、患者の簡易病院コースのモデル生成された要約について、きめ細かいヒューマン アノテーションに対して忠実度指標のベンチマークを行います。
それぞれが複雑な病歴を持つ HIV 患者のコホートについて、患者の入院と要約のコーパスを作成します。
アノテーターは要約とソースノートを提示され、手動で強調表示された要約要素 (状態や投薬などの臨床エンティティ、および「フォローアップ」などのアクション) を次の 3 つのカテゴリのいずれかに分類するよう求められます。
提案された忠実度指標の広範なセットをメタ評価し、指標全体でドメイン適応の重要性を調査します (例: ドメイン内事前トレーニングと指標微調整の影響)。
、ソース サマリー アラインメントの使用、および既存のメトリックのアンサンブルから単一のメトリックを抽出する効果。
長い形式の臨床物語の要約の実用的なガイドとして、一度に 1 つの要約文と関連するソース コンテキストの最小限のセットが提供されると、ほとんどのメトリックが人間の判断と最もよく相関することがわかります。


Long-form clinical summarization of hospital admissions has real-world significance because of its potential to help both clinicians and patients. The faithfulness of summaries is critical to their safe usage in clinical settings. To better understand the limitations of abstractive systems, as well as the suitability of existing evaluation metrics, we benchmark faithfulness metrics against fine-grained human annotations for model-generated summaries of a patient’s Brief Hospital Course. We create a corpus of patient hospital admissions and summaries for a cohort of HIV patients, each with complex medical histories. Annotators are presented with summaries and source notes, and asked to categorize manually highlighted summary elements (clinical entities like conditions and medications as well as actions like ‘following up’) into one of three categories: “Incorrect,” “Missing,” and “Not in Notes.” We meta-evaluate a broad set of proposed faithfulness metrics and, across metrics, explore the importance of domain adaptation (e.g. the impact of in-domain pre-training and metric fine-tuning), the use of source-summary alignments, and the effects of distilling a single metric from an ensemble of pre-existing metrics. Off-the-shelf metrics with no exposure to clinical text correlate well yet overly rely on summary extractiveness. As a practical guide to long-form clinical narrative summarization, we find that most metrics correlate best to human judgments when provided with one summary sentence at a time and a minimal set of relevant source context.


著者 Griffin Adams,Jason Zucker,Noémie Elhadad
発行日 2023-03-07 14:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク