A Deep Learning System for Domain-specific Speech Recognition

要約

マンマシンの音声インターフェイスにより、ますますインテリジェントになるマシンへの簡単なアクセスが可能になるため、多くの最先端の自動音声認識 (ASR) システムが提案されています。
ただし、商用 ASR システムは通常、特に低リソース設定ではドメイン固有の音声のパフォーマンスが低くなります。
著者は、事前トレーニングされた DeepSpeech2 および Wav2Vec2 音響モデルを使用して、特典固有の ASR システムを開発しています。
ドメイン固有のデータは、人間の介入をほとんど行わずに提案された半教師あり学習アノテーションを使用して収集されます。
最高のパフォーマンスは、外部 KenLM を使用して微調整された Wav2Vec2-Large-LV60 音響モデルから得られ、特典固有の音声に関して Google や AWS の ASR システムを上回ります。
音声言語理解 (SLU) の一部として、エラーが発生しやすい ASR 転写を使用する可能性も調査されています。
利益固有の自然言語理解 (NLU) タスクの結果は、ドメイン固有の微調整された ASR システムは、書き起こしの単語誤り率 (WER) が高い場合でも商用 ASR システムよりも優れたパフォーマンスを発揮できることを示しています。
ASR と人間の転写は似ています。

要約(オリジナル)

As human-machine voice interfaces provide easy access to increasingly intelligent machines, many state-of-the-art automatic speech recognition (ASR) systems are proposed. However, commercial ASR systems usually have poor performance on domain-specific speech especially under low-resource settings. The author works with pre-trained DeepSpeech2 and Wav2Vec2 acoustic models to develop benefit-specific ASR systems. The domain-specific data are collected using proposed semi-supervised learning annotation with little human intervention. The best performance comes from a fine-tuned Wav2Vec2-Large-LV60 acoustic model with an external KenLM, which surpasses the Google and AWS ASR systems on benefit-specific speech. The viability of using error prone ASR transcriptions as part of spoken language understanding (SLU) is also investigated. Results of a benefit-specific natural language understanding (NLU) task show that the domain-specific fine-tuned ASR system can outperform the commercial ASR systems even when its transcriptions have higher word error rate (WER), and the results between fine-tuned ASR and human transcriptions are similar.

arxiv情報

著者 Yanan Jia
発行日 2023-09-27 17:32:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク