要約
偏った ASR データセットまたはモデルに対する認識は、近年著しく増加しています。
英語の場合でも、膨大な量のトレーニング データが利用できるにもかかわらず、ネイティブ スピーカー以外のシステムのパフォーマンスは低下します。
この作業では、ネイティブの米国英語の音声をアクセント付きの発音に変換するアクセント変換モデル (ACM) を改善します。
特定の発音パターンが合成された波形でどの程度回復されたかについて正確なフィードバックを提供するために、ACM トレーニングに音声知識が含まれています。
さらに、静的埋め込みの代わりに学習したアクセント表現の実現可能性を調査します。
生成されたデータは、2 つの最先端の ASR システムのトレーニングに使用されました。
ネイティブおよび非ネイティブの英語のデータセットに対するアプローチを評価したところ、合成的にアクセントを付けたデータが、ASR が見たアクセントからスピーチをよりよく理解するのに役立つことがわかりました。
この観察結果は目に見えないアクセントに変換されず、ネイティブ スピーチのみで事前トレーニングされたモデルでは観察されませんでした。
要約(オリジナル)
The awareness for biased ASR datasets or models has increased notably in recent years. Even for English, despite a vast amount of available training data, systems perform worse for non-native speakers. In this work, we improve an accent-conversion model (ACM) which transforms native US-English speech into accented pronunciation. We include phonetic knowledge in the ACM training to provide accurate feedback about how well certain pronunciation patterns were recovered in the synthesized waveform. Furthermore, we investigate the feasibility of learned accent representations instead of static embeddings. Generated data was then used to train two state-of-the-art ASR systems. We evaluated our approach on native and non-native English datasets and found that synthetically accented data helped the ASR to better understand speech from seen accents. This observation did not translate to unseen accents, and it was not observed for a model that had been pre-trained exclusively with native speech.
arxiv情報
| 著者 | Philipp Klumpp,Pooja Chitkara,Leda Sarı,Prashant Serai,Jilong Wu,Irina-Elena Veliche,Rongqing Huang,Qing He |
| 発行日 | 2023-03-01 20:05:19+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google