AfriHuBERT: A self-supervised speech representation model for African languages

要約

この研究では、もともと 147 の言語で事前トレーニングされた、最先端 (SOTA) でコンパクトな自己教師あり学習 (SSL) モデルである mHuBERT-147 の拡張である AfriHuBERT を紹介します。
mHuBERT-147 はアフリカの 16 言語で事前トレーニングされましたが、新たに追加された 23 言語を含む、多様なソースから収集された 6,500 時間以上の音声データで継続的に事前トレーニングすることで、これを 39 のアフリカ言語をカバーするように拡張しました。
FLEURS データセットを使用して、言語識別 (LID) と自動音声認識 (ASR) という 2 つの主要な音声タスクで AfriHuBERT を評価します。
その結果、LID では F1 スコアが平均 +4​​% 向上し、ASR では単語誤り率 (WER) が平均 -1.2% 減少したことがわかりました。
さらに分析すると、AfriHuBERT でトレーニングされた ASR モデルがコーパス間の一般化が向上していることが示されています。
さらに、分析では、FLEURS には低リソースのアフリカ言語の評価への適合性に影響を与える可能性のあるデータ品質の制限があることが示されており、これらの言語に対するより良い評価ベンチマークの必要性が示唆されています。

要約(オリジナル)

In this work, we present AfriHuBERT, an extension of mHuBERT-147, a state-of-the-art (SOTA) and compact self-supervised learning (SSL) model, originally pretrained on 147 languages. While mHuBERT-147 was pretrained on 16 African languages, we expand this to cover 39 African languages through continued pretraining on 6,500+ hours of speech data aggregated from diverse sources, including 23 newly added languages. We evaluate AfriHuBERT on two key speech tasks: Language Identification (LID) and Automatic Speech Recognition (ASR) using FLEURS dataset. Our results show a +4% F1 score improvement on average for LID and a -1.2% average Word Error Rate (WER) reduction for ASR. Further analysis shows that ASR models trained on AfriHuBERT exhibit improved cross-corpus generalization. Additionally, the analysis indicates that the FLEURS have data quality limitations that may affect their suitability for evaluating low-resource African languages, suggesting the need for better evaluation benchmarks for these languages.

arxiv情報

著者 Jesujoba O. Alabi,Xuechen Liu,Dietrich Klakow,Junichi Yamagishi
発行日 2024-09-30 11:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク