The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

要約

急速に進化する医療文書の状況では、臨床対話を正確に書き写すことがますます重要になっています。
この研究では、医療転写における自動音声認識 (ASR) システムの精度を向上させる大規模言語モデル (LLM) の可能性を探ります。
さまざまなプライマリケア相談を網羅する PriMock57 データセットを利用して、高度な LLM を適用して ASR で生成されたトランスクリプトを改良します。
私たちの研究は多面的であり、一般的な単語誤り率 (WER)、重要な医学用語を正確に書き写すための医療概念 WER (MC-WER)、および話者ダイアライゼーションの精度の改善に焦点を当てています。
さらに、意味論的なテキストの類似性を改善し、それによって臨床対話の文脈上の整合性を維持する際の LLM 後処理の役割を評価します。
一連の実験を通じて、ダイアライゼーションと修正の精度を高める際のゼロショットと思考連鎖 (CoT) のプロンプト手法の有効性を比較します。
私たちの調査結果は、LLM が、特に CoT プロンプトを通じて、既存の ASR システムのダイアライゼーション精度を向上させるだけでなく、この領域で最先端のパフォーマンスを達成することを示しています。
この改善により、医療概念をより正確に捉え、転写された対話の全体的な意味論的一貫性が強化されました。
これらの発見は、LLM が ASR 出力を増強するという二重の役割を果たし、転写タスクにおいて独立して優れていることを示しており、医療 ASR システムを変革し、医療現場でより正確で信頼性の高い患者記録を実現する大きな可能性を秘めています。

要約(オリジナル)

In the rapidly evolving landscape of medical documentation, transcribing clinical dialogues accurately is increasingly paramount. This study explores the potential of Large Language Models (LLMs) to enhance the accuracy of Automatic Speech Recognition (ASR) systems in medical transcription. Utilizing the PriMock57 dataset, which encompasses a diverse range of primary care consultations, we apply advanced LLMs to refine ASR-generated transcripts. Our research is multifaceted, focusing on improvements in general Word Error Rate (WER), Medical Concept WER (MC-WER) for the accurate transcription of essential medical terms, and speaker diarization accuracy. Additionally, we assess the role of LLM post-processing in improving semantic textual similarity, thereby preserving the contextual integrity of clinical dialogues. Through a series of experiments, we compare the efficacy of zero-shot and Chain-of-Thought (CoT) prompting techniques in enhancing diarization and correction accuracy. Our findings demonstrate that LLMs, particularly through CoT prompting, not only improve the diarization accuracy of existing ASR systems but also achieve state-of-the-art performance in this domain. This improvement extends to more accurately capturing medical concepts and enhancing the overall semantic coherence of the transcribed dialogues. These findings illustrate the dual role of LLMs in augmenting ASR outputs and independently excelling in transcription tasks, holding significant promise for transforming medical ASR systems and leading to more accurate and reliable patient records in healthcare settings.

arxiv情報

著者 Ayo Adedeji,Sarita Joshi,Brendan Doohan
発行日 2024-02-12 14:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク