要約
主流の自動音声認識 (ASR) テクノロジーでは、通常、数百時間から数千時間の注釈付き音声データが必要です。
低リソースの ASR に対する 3 つのアプローチは、音素またはサブワード ベースの教師あり事前トレーニングと、多言語データに対する自己教師あり事前トレーニングです。
イウミエン語は中国のヤオ族の主要な民族言語であり、注釈付きの音声が非常に限られているという意味でリソースが少ないです。
この論文では、10 時間未満の Iu Mien 言語の書き起こしを使用して、Iu Mien 音声認識の 3 つのアプローチを調査し、比較しています。
私たちの実験は、最近リリースされた、CommonVoice データセット (CV-Lang10) の 10 言語で事前トレーニングされた 3 つのバックボーン モデルに基づいており、低リソース ASR の 3 つのアプローチに対応しています。
音素監視はサブワード監視や自己監視と比較してより良い結果を達成できるため、より高いデータ効率が得られることがわかりました。
特に、Whistle モデル、つまり、弱く監視された音素ベースの多言語事前トレーニングによって取得されたモデルは、最も競争力のある結果が得られます。
要約(オリジナル)
The mainstream automatic speech recognition (ASR) technology usually requires hundreds to thousands of hours of annotated speech data. Three approaches to low-resourced ASR are phoneme or subword based supervised pre-training, and self-supervised pre-training over multilingual data. The Iu Mien language is the main ethnic language of the Yao ethnic group in China and is low-resourced in the sense that the annotated speech is very limited. With less than 10 hours of transcribed Iu Mien language, this paper investigates and compares the three approaches for Iu Mien speech recognition. Our experiments are based on the recently released, three backbone models pretrained over the 10 languages from the CommonVoice dataset (CV-Lang10), which correspond to the three approaches for low-resourced ASR. It is found that phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. Particularly, the Whistle models, i.e., obtained by the weakly-supervised phoneme-based multilingual pre-training, obtain the most competitive results.
arxiv情報
著者 | Lukuan Dong,Donghong Qin,Fengbo Bai,Fanhua Song,Yan Liu,Chen Xu,Zhijian Ou |
発行日 | 2024-09-16 08:23:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google