要約
我々は、90,000 時間のクリーンなオープンライセンス データでトレーニングされた初の汎用大規模多言語 HuBERT 音声表現モデルである mHuBERT-147 を紹介します。
複数反復の HuBERT アプローチをスケールアップするために、faiss ベースのクラスタリングを使用し、元の方法と比較して 5.2 倍高速なラベル割り当てを達成しました。
また、言語とデータセットの多様性の両方を活用して、新しい多言語バッチアップサンプリング戦略を適用します。
3 回のトレーニング反復後、わずか 9,500 万のパラメーターで、mHuBERT-147 は、大幅に多くのデータでトレーニングされた大規模モデルよりも優れたパフォーマンスを発揮しました。
すべての LID タスクの SOTA スコアにより、ML-SUPERB 10 分/1 時間のリーダーボードでそれぞれ 2 位と 1 位にランクされています。
ASR/LID タスク全体で、私たちのモデルは常に XLS-R (300M パラメータ、436,000 時間) を上回り、はるかに大きな MMS (1B パラメータ、491,000 時間) に対して強力な競争力を示しています。
私たちの調査結果は、mHuBERT-147 が多言語音声処理タスクの有望なモデルであり、高いパフォーマンスとパラメーター効率の間で前例のないバランスを提供することを示唆しています。
要約(オリジナル)
We present mHuBERT-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based clustering, achieving 5.2x faster label assignment over the original method. We also apply a new multilingual batching up-sampling strategy, leveraging both language and dataset diversity. After 3 training iterations and with only 95M parameters, mHuBERT-147 outperforms larger models trained on substantially more data. We rank second and first on the ML-SUPERB 10min/1h leaderboards respectively, with SOTA scores for all LID tasks. Across ASR/LID tasks, our model consistently surpasses XLS-R (300M params; 436K hours) and demonstrates strong competitiveness against the much larger MMS (1B params; 491K hours). Our findings suggest that mHuBERT-147 is a promising model for multilingual speech processing tasks, offering an unprecedented balance between high performance and parameter efficiency.
arxiv情報
著者 | Marcely Zanon Boito,Vivek Iyer,Nikolaos Lagos,Laurent Besacier,Ioan Calapodescu |
発行日 | 2024-06-10 15:32:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google