CUED at ProbSum 2023: Hierarchical Ensemble of Summarization Models

要約

この論文では、限られたデータ設定で患者の医療経過記録を要約するという課題について考察します。
BioNLP ワークショップ 2023 の問題リストの要約 (共有タスク 1A) では、765 件の診療記録に微調整された Clinical-T5 が他の抽出的、抽象的、ゼロショットのベースラインよりも優れており、医療記録の要約に合理的なベースライン システムが得られることを実証しました。
さらに、さまざまな微調整された臨床 T5 モデルのトークンレベルのアンサンブルで構成される要約モデルの階層アンサンブル (HESM) と、それに続く最小ベイズ リスク (MBR) デコードを導入します。
当社の HESM アプローチは、要約パフォーマンスの大幅な向上につながり、保留された課題データで評価すると、ROUGE-L 32.77 を達成しました。これは、共有タスクのリーダーボードのトップにある最高のパフォーマンスのシステムでした。

要約(オリジナル)

In this paper, we consider the challenge of summarizing patients’ medical progress notes in a limited data setting. For the Problem List Summarization (shared task 1A) at the BioNLP Workshop 2023, we demonstrate that Clinical-T5 fine-tuned to 765 medical clinic notes outperforms other extractive, abstractive and zero-shot baselines, yielding reasonable baseline systems for medical note summarization. Further, we introduce Hierarchical Ensemble of Summarization Models (HESM), consisting of token-level ensembles of diverse fine-tuned Clinical-T5 models, followed by Minimum Bayes Risk (MBR) decoding. Our HESM approach lead to a considerable summarization performance boost, and when evaluated on held-out challenge data achieved a ROUGE-L of 32.77, which was the best-performing system at the top of the shared task leaderboard.

arxiv情報

著者 Potsawee Manakul,Yassir Fathullah,Adian Liusie,Vyas Raina,Vatsal Raina,Mark Gales
発行日 2023-06-08 16:08:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク