MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations

要約

近年、生の音声から高レベルの情報を学習する際に、自己教師ありの事前トレーニング方法が大きな注目を集めています。
これらの手法の中で、HuBERT は自動音声認識 (ASR) における SOTA パフォーマンスを実証しました。
ただし、事前トレーニング戦略の違いにより、HuBERT のパフォーマンスは data2vec よりも遅れています。
この論文では、(i) HuBERT で観察された事前トレーニングと推論の不一致に対処するためのスワップ手法、(ii) モデルの能力をより効果的に利用するためにマルチクラスターのマスクされた予測損失を組み込むことを提案します。
結果として得られた方法は、堅牢な音声表現を学習するためのエンドツーエンドの自己教師あり事前トレーニング方法である MS-HuBERT です。
さまざまな微調整分割で評価した場合、ASR Librispeech ベンチマークでバニラの HuBERT を平均 5% の差で上回っています。
さらに、事前トレーニング中に取得された学習済みエンベディングが、ASR などのコンテンツ ベースのタスクのパフォーマンスを向上させるために不可欠な情報をエンコードしていることを示します。

要約(オリジナル)

In recent years, self-supervised pre-training methods have gained significant traction in learning high-level information from raw speech. Among these methods, HuBERT has demonstrated SOTA performance in automatic speech recognition (ASR). However, HuBERT’s performance lags behind data2vec due to disparities in pre-training strategies. In this paper, we propose (i) a Swap method to address pre-training and inference mismatch observed in HuBERT and (ii) incorporates Multicluster masked prediction loss for more effective utilization of the models capacity. The resulting method is, MS-HuBERT, an end-to-end self-supervised pre-training method for learning robust speech representations. It beats vanilla HuBERT on the ASR Librispeech benchmark on average by a 5% margin when evaluated on different finetuning splits. Additionally, we demonstrate that the learned embeddings obtained during pre-training encode essential information for improving performance of content based tasks such as ASR.

arxiv情報

著者 Hemant Yadav,Sunayana Sitaram,Rajiv Ratn Shah
発行日 2024-08-15 10:27:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク