UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization

要約

構音障害音声再構成 (DSR) システムは、構音障害のある音声を正常な音声に自動的に変換することを目的としています。
この技術は、神経運動障害に罹患している話者とのコミュニケーションを容易にし、彼らの社会的包摂を強化します。
NED ベース (Neural Encoder-Decoder) システムは、GAN ベース (Generative Adversarial Network) アプローチと比較して、再構成された音声の明瞭度を大幅に向上させましたが、このアプローチは、カスケードされたパイプラインと補助タスクによって引き起こされるトレーニングの非効率性によって依然として制限されています。
コンテンツ エンコーダに影響を与える可能性があり、再構築の品質に影響を与える可能性があります。
自己教師あり音声表現学習と離散音声単位に触発され、HuBERT の強力なドメイン適応能力を利用してトレーニング効率を向上させ、音声単位を利用して離散言語空間での構音障害内容の復元を制限する Unit-DSR システムを提案します。

NED のアプローチと比較すると、Unit-DSR システムは音声単位ノーマライザーと Unit HiFi-GAN ボコーダーのみで構成されており、カスケードされたサブモジュールや補助タスクがなく、かなり単純です。
UASpeech コーパスの結果は、Unit-DSR がコンテンツ復元の点で競合ベースラインを上回っており、元の構音障害のある音声と比較して相対平均単語誤り率 28.2% の減少に達し、速度の乱れやノイズに対する堅牢性を示していることを示しています。

要約(オリジナル)

Dysarthric speech reconstruction (DSR) systems aim to automatically convert dysarthric speech into normal-sounding speech. The technology eases communication with speakers affected by the neuromotor disorder and enhances their social inclusion. NED-based (Neural Encoder-Decoder) systems have significantly improved the intelligibility of the reconstructed speech as compared with GAN-based (Generative Adversarial Network) approaches, but the approach is still limited by training inefficiency caused by the cascaded pipeline and auxiliary tasks of the content encoder, which may in turn affect the quality of reconstruction. Inspired by self-supervised speech representation learning and discrete speech units, we propose a Unit-DSR system, which harnesses the powerful domain-adaptation capacity of HuBERT for training efficiency improvement and utilizes speech units to constrain the dysarthric content restoration in a discrete linguistic space. Compared with NED approaches, the Unit-DSR system only consists of a speech unit normalizer and a Unit HiFi-GAN vocoder, which is considerably simpler without cascaded sub-modules or auxiliary tasks. Results on the UASpeech corpus indicate that Unit-DSR outperforms competitive baselines in terms of content restoration, reaching a 28.2% relative average word error rate reduction when compared to original dysarthric speech, and shows robustness against speed perturbation and noise.

arxiv情報

著者 Yuejiao Wang,Xixin Wu,Disong Wang,Lingwei Meng,Helen Meng
発行日 2024-01-26 06:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク