Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models


自己教師あり表現学習 (SSRL) により、教師ありモデルと比較して、下流の音素認識のパフォーマンスが向上しました。
SSRL モデルのトレーニングには大量の事前トレーニング データが必要であり、リソースの少ない言語ではこれが課題となります。
代わりに、オーディオ拡張を使用して、低リソース条件で SSRL モデルを事前トレーニングし、下流タスクとして音素認識を評価することを提案します。
さまざまな量と種類の事前トレーニング データとパフォーマンスを比較しました。


Self-supervised representation learning (SSRL) has improved the performance on downstream phoneme recognition versus supervised models. Training SSRL models requires a large amount of pre-training data and this poses a challenge for low resource languages. A common approach is transferring knowledge from other languages. Instead, we propose to use audio augmentation to pre-train SSRL models in a low resource condition and evaluate phoneme recognition as downstream task. We performed a systematic comparison of augmentation techniques, namely: pitch variation, noise addition, accented target-language speech and other language speech. We found combined augmentations (noise/pitch) was the best augmentation strategy outperforming accent and language knowledge transfer. We compared the performance with various quantities and types of pre-training data. We examined the scaling factor of augmented data to achieve equivalent performance to models pre-trained with target domain speech. Our findings suggest that for resource constrained languages, in-domain synthetic augmentation can outperform knowledge transfer from accented or other language speech.


著者 Asad Ullah,Alessandro Ragano,Andrew Hines
発行日 2023-09-22 10:09:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク