MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues

要約

自動音声認識 (ASR) システムは、音声をテキストに書き写す際に極めて重要ですが、ASR システムによって発生するエラーにより、要約などの下流タスクのパフォーマンスが大幅に低下する可能性があります。
この問題は、微調整のための教師付きデータが不足する低リソース領域である臨床対話要約で特に顕著であり、ブラックボックス ソリューションとして ASR モデルを使用する必要があります。
要約モデルのノイズ耐性を強化するために従来のデータ拡張を採用することも、十分な医療会話の音声録音と対応する ASR トランスクリプトが利用できないため、現実的ではありません。
この課題に対処するために、私たちは、大規模言語モデル (LLM) を使用してデータ拡張用の合成サンプルを生成するアプローチである MEDSAGE を提案します。
具体的には、LLM のコンテキスト内学習機能を活用し、音声録音を伴ういくつかの利用可能な医療対話の例に基づいて、ASR のようなエラーを生成するように LLM に指示します。
実験結果は、LLM が ASR ノイズを効果的にモデル化できることを示しており、このノイズを含むデータをトレーニング プロセスに組み込むことで、医療対話要約システムの堅牢性と精度が大幅に向上します。
このアプローチは、重要なアプリケーションにおけるノイズの多い ASR 出力の課題に対処し、臨床対話の要約の信頼性を高める堅牢なソリューションを提供します。

要約(オリジナル)

Automatic Speech Recognition (ASR) systems are pivotal in transcribing speech into text, yet the errors they introduce can significantly degrade the performance of downstream tasks like summarization. This issue is particularly pronounced in clinical dialogue summarization, a low-resource domain where supervised data for fine-tuning is scarce, necessitating the use of ASR models as black-box solutions. Employing conventional data augmentation for enhancing the noise robustness of summarization models is not feasible either due to the unavailability of sufficient medical dialogue audio recordings and corresponding ASR transcripts. To address this challenge, we propose MEDSAGE, an approach for generating synthetic samples for data augmentation using Large Language Models (LLMs). Specifically, we leverage the in-context learning capabilities of LLMs and instruct them to generate ASR-like errors based on a few available medical dialogue examples with audio recordings. Experimental results show that LLMs can effectively model ASR noise, and incorporating this noisy data into the training process significantly improves the robustness and accuracy of medical dialogue summarization systems. This approach addresses the challenges of noisy ASR outputs in critical applications, offering a robust solution to enhance the reliability of clinical dialogue summarization.

arxiv情報

著者 Kuluhan Binici,Abhinav Ramesh Kashyap,Viktor Schlegel,Andy T. Liu,Vijay Prakash Dwivedi,Thanh-Tung Nguyen,Xiaoxue Gao,Nancy F. Chen,Stefan Winkler
発行日 2024-08-26 17:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク