PULSAR: Pre-training with Extracted Healthcare Terms for Summarising Patients’ Problems and Data Augmentation with Black-box Large Language Models

要約

医療経過記録は、患者の状態、治療計画、医療提供者への最新情報など、患者の入院経過を文書化する上で重要な役割を果たします。
患者の問題を問題リストの形式で自動的に要約すると、関係者が患者の状態を理解するのに役立ち、作業負荷と認知バイアスが軽減されます。
BioNLP 2023 共有タスク 1A は、入院中の医療従事者の進捗ノートから診断と問題のリストを生成することに重点を置いています。
このホワイトペーパーでは、2 つの補完的なコンポーネントを統合する、このタスクに対する提案されたアプローチを紹介します。
1 つのコンポーネントはデータ拡張に大規模言語モデル (LLM) を採用しています。
もう 1 つは、リストとして要約された患者の問題を生成するための新しい事前トレーニング目標を備えた抽象的な要約 LLM です。
私たちのアプローチは、共有タスクへのすべての提出の中で 2 位にランクされました。
開発およびテスト データセットでのモデルのパフォーマンスは、未知のデータに対してこのアプローチがより堅牢であることを示しており、同じサイズのより大きなモデルと比較して最大 3.1 ポイント向上しています。

要約(オリジナル)

Medical progress notes play a crucial role in documenting a patient’s hospital journey, including his or her condition, treatment plan, and any updates for healthcare providers. Automatic summarisation of a patient’s problems in the form of a problem list can aid stakeholders in understanding a patient’s condition, reducing workload and cognitive bias. BioNLP 2023 Shared Task 1A focuses on generating a list of diagnoses and problems from the provider’s progress notes during hospitalisation. In this paper, we introduce our proposed approach to this task, which integrates two complementary components. One component employs large language models (LLMs) for data augmentation; the other is an abstractive summarisation LLM with a novel pre-training objective for generating the patients’ problems summarised as a list. Our approach was ranked second among all submissions to the shared task. The performance of our model on the development and test datasets shows that our approach is more robust on unknown data, with an improvement of up to 3.1 points over the same size of the larger model.

arxiv情報

著者 Hao Li,Yuping Wu,Viktor Schlegel,Riza Batista-Navarro,Thanh-Tung Nguyen,Abhinav Ramesh Kashyap,Xiaojun Zeng,Daniel Beck,Stefan Winkler,Goran Nenadic
発行日 2023-06-05 10:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク