Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation

要約

自動音声認識 (ASR) は大幅に進歩しましたが、最先端の ASR システムは、高リソース言語であっても音声障害に対処するのに苦労しています。
アラビア語では、この課題はさらに拡大し、構音障害のある話者からのデータ収集がさらに複雑になります。
この論文では、多段階の拡張アプローチを通じてアラビア語の構音障害による自動音声認識のパフォーマンスを向上させることを目的としています。
この目的のために、我々はまず、速度とテンポを変更することで健全なアラビア語音声から構音障害のあるアラビア語音声を生成する信号ベースのアプローチを提案します。
また、言語に依存しない構音障害の音声パターンをキャプチャし、信号調整された音声サンプルをさらに強化するために、英語の構音障害データセットでトレーニングされた第 2 段階の Parallel Wave Generative (PWG) 敵対的モデルも提案します。
さらに、さまざまな構音障害の音声重症度レベルでのアラビア語適合者向けの微調整およびテキスト修正戦略を提案します。
当社の微調整された Conformer は、アラビア語の共通音声音声データセットから合成的に生成された構音障害音声で 18% の単語誤り率 (WER) と 17.2% の文字誤り率 (CER) を達成しました。
これは、健全なデータのみでトレーニングされたベースライン モデルと比較して、WER が 81.8% という大幅な改善を示しています。
実際の英語の構音障害のある音声でさらなる検証を実行すると、健康な英語の LJSpeech データセットのみでトレーニングされたベースラインと比較して、WER が 124% 向上したことが示されました。

要約(オリジナル)

Despite major advancements in Automatic Speech Recognition (ASR), the state-of-the-art ASR systems struggle to deal with impaired speech even with high-resource languages. In Arabic, this challenge gets amplified, with added complexities in collecting data from dysarthric speakers. In this paper, we aim to improve the performance of Arabic dysarthric automatic speech recognition through a multi-stage augmentation approach. To this effect, we first propose a signal-based approach to generate dysarthric Arabic speech from healthy Arabic speech by modifying its speed and tempo. We also propose a second stage Parallel Wave Generative (PWG) adversarial model that is trained on an English dysarthric dataset to capture language-independant dysarthric speech patterns and further augment the signal-adjusted speech samples. Furthermore, we propose a fine-tuning and text-correction strategies for Arabic Conformer at different dysarthric speech severity levels. Our fine-tuned Conformer achieved 18% Word Error Rate (WER) and 17.2% Character Error Rate (CER) on synthetically generated dysarthric speech from the Arabic commonvoice speech dataset. This shows significant WER improvement of 81.8% compared to the baseline model trained solely on healthy data. We perform further validation on real English dysarthric speech showing a WER improvement of 124% compared to the baseline trained only on healthy English LJSpeech dataset.

arxiv情報

著者 Massa Baali,Ibrahim Almakky,Shady Shehata,Fakhri Karray
発行日 2023-06-07 12:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD パーマリンク