SummQA at MEDIQA-Chat 2023:In-Context Learning with GPT-4 for Medical Summarization

要約

医療会話の要約は、医療会話の構造化されていない性質、ゴールドサマリーでの医療用語の使用、および複数の症状セットにわたる重要な情報を特定する必要があるため、困難です。
MEDIQA 2023 共有タスクの Dialogue2Note Medical Summarization タスク用の新しいシステムを紹介します。
セクションごとの要約のアプローチ (タスク A) は、意味的に類似したダイアログを選択し、上位 k 個の類似したダイアログを GPT-4 のコンテキスト内の例として使用する 2 段階のプロセスです。
全音による要約 (タスク B) では、k=1 で同様の解決策を使用します。
タスクAで3位(全チーム中2位)、タスクB部門の賢明な要約で4位(全チーム中2位)、タスクAセクションヘッダー分類で15位(全チーム中9位)、全チーム中8位を獲得しました。
私たちの結果は、このタスクに対する数回のプロンプトの有効性を強調していますが、プロンプトベースのアプローチのいくつかの弱点も特定しています。
GPT-4 のパフォーマンスをいくつかの微調整されたベースラインと比較します。
GPT-4 の要約はより抽象的で短いことがわかりました。
私たちはコードを公開しています。

要約(オリジナル)

Medical dialogue summarization is challenging due to the unstructured nature of medical conversations, the use of medical terminology in gold summaries, and the need to identify key information across multiple symptom sets. We present a novel system for the Dialogue2Note Medical Summarization tasks in the MEDIQA 2023 Shared Task. Our approach for section-wise summarization (Task A) is a two-stage process of selecting semantically similar dialogues and using the top-k similar dialogues as in-context examples for GPT-4. For full-note summarization (Task B), we use a similar solution with k=1. We achieved 3rd place in Task A (2nd among all teams), 4th place in Task B Division Wise Summarization (2nd among all teams), 15th place in Task A Section Header Classification (9th among all teams), and 8th place among all teams in Task B. Our results highlight the effectiveness of few-shot prompting for this task, though we also identify several weaknesses of prompting-based approaches. We compare GPT-4 performance with several finetuned baselines. We find that GPT-4 summaries are more abstractive and shorter. We make our code publicly available.

arxiv情報

著者 Yash Mathur,Sanketh Rangreji,Raghav Kapoor,Medha Palavalli,Amanda Bertsch,Matthew R. Gormley
発行日 2023-06-30 03:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク