要約
アフリカの音声のみを対象としてトレーニングされた、最初の自己教師あり多言語音声モデルを紹介します。
このモデルは、サハラ以南のアフリカで話されている 21 の言語と方言のラベルなしの約 60,000 時間の音声セグメントから学習しました。
FLEURS-102 データセットの SSA サブセットでは、HuBERT$_{base}$ (0.09B) アーキテクチャに基づくアプローチは、ASR ダウンストリーム タスクに関して、w2v-bert-51 (0.6B) プレのアプローチと比較して競合する結果を示しています。
FLEURS ベンチマークで提案されているトレーニング済みモデルですが、使用するデータが 7 分の 1、パラメータが 6 分の 1 であるため効率が向上しています。
さらに、LID ダウンストリーム タスクのコンテキストでは、私たちのアプローチは FLEURS ベースラインの精度を 22\% 以上上回っています。
要約(オリジナル)
We present the first self-supervised multilingual speech model trained exclusively on African speech. The model learned from nearly 60 000 hours of unlabeled speech segments in 21 languages and dialects spoken in sub-Saharan Africa. On the SSA subset of the FLEURS-102 dataset, our approach based on a HuBERT$_{base}$ (0.09B) architecture shows competitive results, for ASR downstream task, compared to the w2v-bert-51 (0.6B) pre-trained model proposed in the FLEURS benchmark, while being more efficient by using 7x less data and 6x less parameters. Furthermore, in the context of a LID downstream task, our approach outperforms FLEURS baselines accuracy by over 22\%.
arxiv情報
著者 | Antoine Caubrière,Elodie Gauthier |
発行日 | 2024-04-22 09:18:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google