要約
我々は、90,000 時間のクリーンなオープンライセンス データでトレーニングされた初の汎用大規模多言語 HuBERT 音声表現モデルである mHuBERT-147 を紹介します。
複数反復の HuBERT アプローチをスケールアップするために、faiss ベースのクラスタリングを使用し、元の方法よりも 5.2 倍高速なラベル割り当てを達成しました。
また、言語とデータセットの多様性の両方を活用して、新しい多言語バッチアップサンプリング戦略を適用します。
3 回のトレーニング反復の後、コンパクトな 95M パラメーター mHuBERT-147 は、大幅に多くのデータでトレーニングされた大規模なモデルよりも優れたパフォーマンスを発揮します。
ML-SUPERB 10 分および 1 時間のリーダーボードでは、3 つのタスクの SOTA スコアで 2 位と 1 位にランクされています。
ASR/LID タスク全体で、私たちのモデルは常に XLS-R (300M パラメータ、436,000 時間) を上回り、はるかに大きな MMS (1B パラメータ、491,000 時間) に対して強力な競争力を示しています。
私たちの調査結果は、mHuBERT-147 が多言語音声タスクの有望なモデルであり、高いパフォーマンスとパラメーター効率の間で前例のないバランスを提供することを示しています。
要約(オリジナル)
We present mHuBERT-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based clustering, achieving 5.2x faster label assignment than the original method. We also apply a new multilingual batching up-sampling strategy, leveraging both language and dataset diversity. After 3 training iterations, our compact 95M parameter mHuBERT-147 outperforms larger models trained on substantially more data. We rank second and first on the ML-SUPERB 10min and 1h leaderboards, with SOTA scores for 3 tasks. Across ASR/LID tasks, our model consistently surpasses XLS-R (300M params; 436K hours) and demonstrates strong competitiveness against the much larger MMS (1B params; 491K hours). Our findings indicate that mHuBERT-147 is a promising model for multilingual speech tasks, offering an unprecedented balance between high performance and parameter efficiency.
arxiv情報
著者 | Marcely Zanon Boito,Vivek Iyer,Nikolaos Lagos,Laurent Besacier,Ioan Calapodescu |
発行日 | 2024-08-23 13:55:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google