Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages

要約

この研究では、絶滅危惧種の 2 つのオーストロネシア語、アミ語とセデクに焦点を当て、低リソースの自動音声認識 (ASR) に対するデータ拡張技術の有効性を調査します。
低リソース設定における自己教師あり学習 (SSL) の可能性を認識し、SSL モデルの継続的な事前トレーニングに対するデータ量の影響を調査します。
我々は、限られたターゲット言語データを増強するために多言語コーパスを活用する新しいデータ選択スキームを提案します。
このスキームは、言語分類器を利用して発話の埋め込みを抽出し、1 クラス分類器を使用してターゲット言語に音声学的および音韻論的に近い発話を識別します。
発話は決定スコアに基づいてランク付けおよび選択され、SSL-ASR パイプラインに関連性の高いデータが確実に含まれるようにします。
私たちの実験結果は、このアプローチの有効性を示しており、Amis と Seediq の両方で ASR パフォーマンスが大幅に向上しました。
これらの発見は、低リソース言語 ASR の言語間転移学習によるデータ拡張の実現可能性と有望性を強調しています。

要約(オリジナル)

This study investigates the efficacy of data augmentation techniques for low-resource automatic speech recognition (ASR), focusing on two endangered Austronesian languages, Amis and Seediq. Recognizing the potential of self-supervised learning (SSL) in low-resource settings, we explore the impact of data volume on the continued pre-training of SSL models. We propose a novel data-selection scheme leveraging a multilingual corpus to augment the limited target language data. This scheme utilizes a language classifier to extract utterance embeddings and employs one-class classifiers to identify utterances phonetically and phonologically proximate to the target languages. Utterances are ranked and selected based on their decision scores, ensuring the inclusion of highly relevant data in the SSL-ASR pipeline. Our experimental results demonstrate the effectiveness of this approach, yielding substantial improvements in ASR performance for both Amis and Seediq. These findings underscore the feasibility and promise of data augmentation through cross-lingual transfer learning for low-resource language ASR.

arxiv情報

著者 Yao-Fei Cheng,Li-Wei Chen,Hung-Shin Lee,Hsin-Min Wang
発行日 2024-09-13 14:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク