Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation


自動音声認識 (ASR) システムのパフォーマンスは、近年、特に大量の音声文字起こしが利用できる言語で大幅に進歩しました。
残念ながら、少数言語、地域言語、方言などのリソースが少ない言語の場合、ASR パフォーマンスは一般にはるかに低いままです。
この研究では、類型的に多様な 4 つの少数言語または言語変種 (西ゲルマン語: グローニングス語、西フリジア語、マレーポリネシア語: ベセマ語、鼻語語) に焦点を当て、データ拡張技術が低リソースの ASR パフォーマンスの向上に役立つかどうかを調査します。
4 つの言語すべてについて、自己トレーニングの使用を調べます。この場合、利用可能な人間が文字起こししたデータでトレーニングされた ASR システムを使用して文字起こしが生成され、その後、元のデータと結合されて新しい ASR システムがトレーニングされます。
Gronings では、既存のテキスト読み上げ (TTS) システムが利用可能であったため、TTS を使用してテキストのみのソースから ASR トレーニング データを生成することも検討しました。
自己トレーニング アプローチを使用すると、一貫してパフォーマンスが向上することがわかりました (24 分間の手動で書き起こした音声でトレーニングされた ASR システムを使用した場合と比較して、WER が相対的に最大 20.5% 削減されました)。
Gronings の TTS 拡張によるパフォーマンスの向上はさらに強力でした (24 分間の手動で文字起こしされた音声に基づくシステムと比較して、WER が相対的に最大 25.5% 削減されました)。
まとめると、私たちの結果は、ASR のパフォーマンスを向上させるために、リソースが不足している言語のデータ可用性の制限を克服するための効率的なソリューションとして、自己トレーニングまたは (可能であれば) TTS で生成されたデータを使用することの利点を示しています。


The performance of automatic speech recognition (ASR) systems has advanced substantially in recent years, particularly for languages for which a large amount of transcribed speech is available. Unfortunately, for low-resource languages, such as minority languages, regional languages or dialects, ASR performance generally remains much lower. In this study, we investigate whether data augmentation techniques could help improve low-resource ASR performance, focusing on four typologically diverse minority languages or language variants (West Germanic: Gronings, West-Frisian; Malayo-Polynesian: Besemah, Nasal). For all four languages, we examine the use of self-training, where an ASR system trained with the available human-transcribed data is used to generate transcriptions, which are then combined with the original data to train a new ASR system. For Gronings, for which there was a pre-existing text-to-speech (TTS) system available, we also examined the use of TTS to generate ASR training data from text-only sources. We find that using a self-training approach consistently yields improved performance (a relative WER reduction up to 20.5% compared to using an ASR system trained on 24 minutes of manually transcribed speech). The performance gain from TTS augmentation for Gronings was even stronger (up to 25.5% relative reduction in WER compared to a system based on 24 minutes of manually transcribed speech). In sum, our results show the benefit of using self-training or (if possible) TTS-generated data as an efficient solution to overcome the limitations of data availability for resource-scarce languages in order to improve ASR performance.


著者 Martijn Bartelds,Nay San,Bradley McDonnell,Dan Jurafsky,Martijn Wieling
発行日 2023-05-18 13:20:38+00:00
