要約
自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォーマンスが低いことがよく知られています。
これまでの研究では、典型的な音声との不一致を減らすために音声速度を変更することでこの問題に対処していました。
残念ながら、これらのアプローチは、文字に起こした音声データに基づいて話速と音素時間を推定するため、話者が見えない場合は利用できない可能性があります。
したがって、私たちは、自己教師付き音声表現に基づく教師なしリズムと音声変換手法を組み合わせて、構音障害を典型的な音声にマッピングします。
健康な音声で事前にトレーニングされた大規模な ASR モデルを使用して、さらなる微調整を行わずに出力を評価したところ、提案されたリズム変換により、より重度の構音障害のあるトルゴコーパスの話者のパフォーマンスが特に向上することがわかりました。
コードとオーディオのサンプルは https://idiap.github.io/RnV で入手できます。
要約(オリジナル)
Automatic speech recognition (ASR) systems are well known to perform poorly on dysarthric speech. Previous works have addressed this by speaking rate modification to reduce the mismatch with typical speech. Unfortunately, these approaches rely on transcribed speech data to estimate speaking rates and phoneme durations, which might not be available for unseen speakers. Therefore, we combine unsupervised rhythm and voice conversion methods based on self-supervised speech representations to map dysarthric to typical speech. We evaluate the outputs with a large ASR model pre-trained on healthy speech without further fine-tuning and find that the proposed rhythm conversion especially improves performance for speakers of the Torgo corpus with more severe cases of dysarthria. Code and audio samples are available at https://idiap.github.io/RnV .
arxiv情報
著者 | Karl El Hajal,Enno Hermann,Ajinkya Kulkarni,Mathew Magimai. -Doss |
発行日 | 2025-01-17 15:39:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google