A Small and Fast BERT for Chinese Medical Punctuation Restoration

要約

臨床ディクテーションでは、自動音声認識 (ASR) 後の明示的な句読点のない発話は、ディクテーションされたレポートの誤解を招く可能性があります。
ASR で正確でわかりやすい臨床レポートを提供するには、句読点の自動修復が必要です。
実用的なシナリオを考慮して、「事前トレーニングと微調整」パラダイムに基づいて、中国医学の句読点復元のための高速かつ軽量の事前トレーニング済みモデルを提案します。
この研究では、教師あり対比学習と新しい補助事前トレーニング タスク (句読点予測) を組み込んで事前トレーニング モデルを抽出し、句読点の復元に適したものにしました。
さまざまな蒸留モデルでの実験により、当社のモデルは最先端の中国製 RoBERTa と比較して 10% のモデル サイズで 95% のパフォーマンスを達成できることが明らかになりました。

要約(オリジナル)

In clinical dictation, utterances after automatic speech recognition (ASR) without explicit punctuation marks may lead to the misunderstanding of dictated reports. To give a precise and understandable clinical report with ASR, automatic punctuation restoration is required. Considering a practical scenario, we propose a fast and light pre-trained model for Chinese medical punctuation restoration based on ‘pretraining and fine-tuning’ paradigm. In this work, we distill pre-trained models by incorporating supervised contrastive learning and a novel auxiliary pre-training task (Punctuation Mark Prediction) to make it well-suited for punctuation restoration. Our experiments on various distilled models reveal that our model can achieve 95% performance while 10% model size relative to state-of-the-art Chinese RoBERTa.

arxiv情報

著者 Tongtao Ling,Yutao Lai,Lei Chen,Shilei Huang,Yi Liu
発行日 2024-06-28 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク