要約
構音障害音声認識では、構音障害の重症度や正常音声との外在的な差異が本質的に多様であるため、しばしば性能劣化に悩まされる。これらのギャップを埋めるために、我々は動的音素レベル対照学習(DyPCL)法を提案する。動的コネクショニストの時間分類アライメントを活用し、発話を音素セグメントに分解して音素レベルの対照学習を行う。発話レベルの埋め込みに焦点を当てた先行研究とは異なり、我々の粒状学習は微妙な品詞の識別を可能にする。さらに、動的カリキュラム学習を導入し、音素の音韻的類似性に基づいて、識別が容易な否定サンプルから識別が困難な否定サンプルへと段階的に移行する。難易度別に学習する我々のアプローチは、話者固有のばらつきを緩和し、より困難な音声を識別することができる。UASpeechデータセットで評価した結果、DyPCLはベースラインモデルを上回り、構音障害グループ全体で平均22.10%の相対的な単語誤り率(WER)の減少を達成した。
要約(オリジナル)
Dysarthric speech recognition often suffers from performance degradation due to the intrinsic diversity of dysarthric severity and extrinsic disparity from normal speech. To bridge these gaps, we propose a Dynamic Phoneme-level Contrastive Learning (DyPCL) method, which leads to obtaining invariant representations across diverse speakers. We decompose the speech utterance into phoneme segments for phoneme-level contrastive learning, leveraging dynamic connectionist temporal classification alignment. Unlike prior studies focusing on utterance-level embeddings, our granular learning allows discrimination of subtle parts of speech. In addition, we introduce dynamic curriculum learning, which progressively transitions from easy negative samples to difficult-to-distinguishable negative samples based on phonetic similarity of phoneme. Our approach to training by difficulty levels alleviates the inherent variability of speakers, better identifying challenging speeches. Evaluated on the UASpeech dataset, DyPCL outperforms baseline models, achieving an average 22.10\% relative reduction in word error rate (WER) across the overall dysarthria group.
arxiv情報
著者 | Wonjun Lee,Solee Im,Heejin Do,Yunsu Kim,Jungseul Ok,Gary Geunbae Lee |
発行日 | 2025-02-03 11:21:50+00:00 |
arxivサイト | arxiv_id(pdf) |