Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context

要約

アフリカの音声のみを対象としてトレーニングされた、最初の自己教師あり多言語音声モデルを紹介します。
このモデルは、サハラ以南のアフリカで話されている 21 の言語と方言のラベルなしの約 60,000 時間の音声セグメントから学習しました。
FLEURS-102 データセットの SSA サブセットでは、HuBERT$_{base}$ (0.09B) アーキテクチャに基づくアプローチは、ASR ダウンストリーム タスクに関して、w2v-bert-51 (0.6B) プレのアプローチと比較して競合する結果を示しています。
FLEURS ベンチマークで提案されているトレーニング済みモデルですが、使用するデータが 7 分の 1、パラメータが 6 分の 1 であるため効率が向上しています。
さらに、LID ダウンストリーム タスクのコンテキストでは、私たちのアプローチは FLEURS ベースラインの精度を 22\% 以上上回っています。

要約(オリジナル)

We present the first self-supervised multilingual speech model trained exclusively on African speech. The model learned from nearly 60 000 hours of unlabeled speech segments in 21 languages and dialects spoken in sub-Saharan Africa. On the SSA subset of the FLEURS-102 dataset, our approach based on a HuBERT$_{base}$ (0.09B) architecture shows competitive results, for ASR downstream task, compared to the w2v-bert-51 (0.6B) pre-trained model proposed in the FLEURS benchmark, while being more efficient by using 7x less data and 6x less parameters. Furthermore, in the context of a LID downstream task, our approach outperforms FLEURS baselines accuracy by over 22\%.

arxiv情報

著者 Antoine Caubrière,Elodie Gauthier
発行日 2024-04-22 09:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク