Accurate synthesis of Dysarthric Speech for ASR data augmentation

要約

構音障害は、発語筋の制御が遅く、協調性を欠いていることによる音声明瞭度の低下を特徴とする運動言語障害です。
自動音声認識 (ASR) システムは、構音障害のある発話者のコミュニケーションをより効果的に行うのに役立ちます。
ただし、構音障害特有の強力な ASR にはかなりの量の音声トレーニングが必要ですが、構音障害のある発話者はそれを容易に利用できません。
この論文では、ASR トレーニング データ拡張を目的とした新しい構音障害音声合成方法を紹介します。
さまざまな重症度レベルでの構音障害の自発音声の韻律特性と音響特性の違いは、構音障害音声のモデリング、合成、および拡張にとって重要な要素です。
構音障害音声合成の場合、構音障害重症度レベル係数とポーズ挿入モデルを追加することで修正されたニューラル マルチトーカー TTS が実装され、さまざまな重症度レベルで構音障害音声を合成します。
ASR のトレーニング データの合成の有効性を評価するために、構音障害特有の音声認識が使用されました。
結果は、追加の合成構音障害音声でトレーニングされた DNN-HMM モデルがベースラインと比較して 12.2% の WER 改善を達成し、重症度レベルとポーズ挿入制御の追加により WER が 6.5% 減少することを示し、これらのパラメーターの追加の有効性を示しています。

TORGO データベースの全体的な結果は、構音障害合成音声を使用してトレーニング用の構音障害パターン音声の量を増やすと、構音障害 ASR システムに大きな影響を与えることを示しています。
さらに、合成音声の構音障害らしさや類似性を評価するための主観評価を実施した。
私たちの主観的な評価では、特に高レベルの構音障害の場合、合成音声の知覚障害は真の構音障害の音声と同様であることが示されています。

要約(オリジナル)

Dysarthria is a motor speech disorder often characterized by reduced speech intelligibility through slow, uncoordinated control of speech production muscles. Automatic Speech recognition (ASR) systems can help dysarthric talkers communicate more effectively. However, robust dysarthria-specific ASR requires a significant amount of training speech, which is not readily available for dysarthric talkers. This paper presents a new dysarthric speech synthesis method for the purpose of ASR training data augmentation. Differences in prosodic and acoustic characteristics of dysarthric spontaneous speech at varying severity levels are important components for dysarthric speech modeling, synthesis, and augmentation. For dysarthric speech synthesis, a modified neural multi-talker TTS is implemented by adding a dysarthria severity level coefficient and a pause insertion model to synthesize dysarthric speech for varying severity levels. To evaluate the effectiveness for synthesis of training data for ASR, dysarthria-specific speech recognition was used. Results show that a DNN-HMM model trained on additional synthetic dysarthric speech achieves WER improvement of 12.2% compared to the baseline, and that the addition of the severity level and pause insertion controls decrease WER by 6.5%, showing the effectiveness of adding these parameters. Overall results on the TORGO database demonstrate that using dysarthric synthetic speech to increase the amount of dysarthric-patterned speech for training has significant impact on the dysarthric ASR systems. In addition, we have conducted a subjective evaluation to evaluate the dysarthric-ness and similarity of synthesized speech. Our subjective evaluation shows that the perceived dysartrhic-ness of synthesized speech is similar to that of true dysarthric speech, especially for higher levels of dysarthria

arxiv情報

著者 Mohammad Soleymanpour,Michael T. Johnson,Rahim Soleymanpour,Jeffrey Berry
発行日 2023-08-16 15:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク