Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes

要約

自動音声認識(ASR)システムは、学習させた音声と類似した音声に対して最高の性能を発揮します。そのため、地域の方言や少数話者、低資源言語など、代表的でない品種は、「一流」「主流」「標準」とされる品種よりも単語誤り率(WER)が非常に高くなる。このことは、大規模な言語研究のアノテーションプロセスにASR技術を取り入れる際の障壁となります。ASRシステムの動作をより深く理解することは、ASRの精度を向上させるという音声技術の観点からも、ASRシステムによる誤りの可能性を知ることで、手動による修正を支援するというアノテーションの観点からも有益である。この研究では、ASRシステムが多くのL2英語においてどのように音韻の変化を扱うかを調べる方法を紹介します。具体的には、システムのトレーニングデータでは稀であったり、存在しなかったりする特定の音韻の実現が、音素レベルの誤認識を引き起こし、高いWERの原因となることを明らかにしました。ASRの動作は、類似の音声品種(この場合は同じL1)を持つ話者間で体系的かつ一貫しており、音素置換エラーは通常、人間の注釈者と一致することが実証された。問題のある音声を特定することで、そのような音声をトレーニングや微調整に利用することで、弱点に対処することができ、発音の変化に対してシステムをより強固にすることができます。

要約(オリジナル)

Automatic Speech Recognition (ASR) systems exhibit the best performance on speech that is similar to that on which it was trained. As such, underrepresented varieties including regional dialects, minority-speakers, and low-resource languages, see much higher word error rates (WERs) than those varieties seen as ‘prestigious’, ‘mainstream’, or ‘standard’. This can act as a barrier to incorporating ASR technology into the annotation process for large-scale linguistic research since the manual correction of the erroneous automated transcripts can be just as time and resource consuming as manual transcriptions. A deeper understanding of the behaviour of an ASR system is thus beneficial from a speech technology standpoint, in terms of improving ASR accuracy, and from an annotation standpoint, where knowing the likely errors made by an ASR system can aid in this manual correction. This work demonstrates a method of probing an ASR system to discover how it handles phonetic variation across a number of L2 Englishes. Specifically, how particular phonetic realisations which were rare or absent in the system’s training data can lead to phoneme level misrecognitions and contribute to higher WERs. It is demonstrated that the behaviour of the ASR is systematic and consistent across speakers with similar spoken varieties (in this case the same L1) and phoneme substitution errors are typically in agreement with human annotators. By identifying problematic productions specific weaknesses can be addressed by sourcing such realisations for training and fine-tuning thus making the system more robust to pronunciation variation.

arxiv情報

著者 Emma O’Neill,Julie Carson-Berndsen
発行日 2023-05-12 11:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク