PULSAR at MEDIQA-Sum 2023: Large Language Models Augmented by Synthetic Dialogue Convert Patient Dialogues to Medical Records

要約

この論文では、患者と医師の対話を臨床記録に要約するという ImageClef 2023 MediQA-Sum タスクで提出されたシステムである PULSAR について説明します。
提案されたフレームワークは、ドメイン固有の事前トレーニングに依存して、ブラックボックス LLM によって生成された合成データによって強化されたタスク固有の自然データでトレーニングされる特殊な言語モデルを生成します。
ドメイン固有の事前トレーニングとデータ拡張の有効性に関する証拠は限られていますが、言語モデルをスケールアップすると最高のパフォーマンス向上が得られます。
私たちのアプローチは、チャレンジのタスク B に関する 13 件の提出のうち 2 位と 3 位にランクされました。
私たちのコードは https://github.com/yuping-wu/PULSAR で入手できます。

要約(オリジナル)

This paper describes PULSAR, our system submission at the ImageClef 2023 MediQA-Sum task on summarising patient-doctor dialogues into clinical records. The proposed framework relies on domain-specific pre-training, to produce a specialised language model which is trained on task-specific natural data augmented by synthetic data generated by a black-box LLM. We find limited evidence towards the efficacy of domain-specific pre-training and data augmentation, while scaling up the language model yields the best performance gains. Our approach was ranked second and third among 13 submissions on task B of the challenge. Our code is available at https://github.com/yuping-wu/PULSAR.

arxiv情報

著者 Viktor Schlegel,Hao Li,Yuping Wu,Anand Subramanian,Thanh-Tung Nguyen,Abhinav Ramesh Kashyap,Daniel Beck,Xiaojun Zeng,Riza Theresa Batista-Navarro,Stefan Winkler,Goran Nenadic
発行日 2023-07-05 03:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク