joint prediction and denoising for large-scale multilingual self-supervised learning

要約

多言語自己教師あり学習 (SSL) は、多くの言語を処理するために必要な費用と複雑さのため、多くの場合、最先端 (SOTA) 手法に後れを取っていました。
これは、SSL の再現性をさらに損なうものであり、SSL はリソース使用量の関係ですでに少数の研究グループに限定されています。
私たちは、より強力な技術が実際により効率的な事前トレーニングにつながり、SSL をより多くの研究グループに公開できることを示します。
私たちは WavLabLM を提案します。これは、WavLM の共同予測とノイズ除去を 136 言語にわたる 40,000 時間のデータに拡張します。
WavLabLM を構築するために、多言語データの言語の不均衡に対処するように設計された、新しい多段階の事前トレーニング方法を考案しました。
WavLabLM は、トレーニング データの 10% 未満で ML-SUPERB 上で XLS-R と同等のパフォーマンスを達成し、アカデミック コンピューティングで SSL を実現可能にします。
バニラの HuBERT Base モデルを使用すると、さらなる効率が達成できることを示します。このモデルでは、わずか 3% のデータ、4 つの GPU、限定されたトライアルで XLS-R のパフォーマンスの 94% を維持できます。
ESPnet ではすべてのコードとモデルをオープンソースにしています。

要約(オリジナル)

Multilingual self-supervised learning (SSL) has often lagged behind state-of-the-art (SOTA) methods due to the expenses and complexity required to handle many languages. This further harms the reproducibility of SSL, which is already limited to few research groups due to its resource usage. We show that more powerful techniques can actually lead to more efficient pre-training, opening SSL to more research groups. We propose WavLabLM, which extends WavLM’s joint prediction and denoising to 40k hours of data across 136 languages. To build WavLabLM, we devise a novel multi-stage pre-training method, designed to address the language imbalance of multilingual data. WavLabLM achieves comparable performance to XLS-R on ML-SUPERB with less than 10% of the training data, making SSL realizable with academic compute. We show that further efficiency can be achieved with a vanilla HuBERT Base model, which can maintain 94% of XLS-R’s performance with only 3% of the data, 4 GPUs, and limited trials. We open-source all code and models in ESPnet.

arxiv情報

著者 William Chen,Jiatong Shi,Brian Yan,Dan Berrebbi,Wangyou Zhang,Yifan Peng,Xuankai Chang,Soumi Maiti,Shinji Watanabe
発行日 2023-09-26 23:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク