MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations

要約

近年、生の音声からハイレベルな情報を学習する自己教師付き事前学習法が大きな注目を集めている。その中でもHuBERTは、自動音声認識(ASR)においてSOTAの性能を実証している。しかし、HuBERTの性能は、事前学習戦略の相違により、data2vecに遅れをとっている。本論文では、(i)HuBERTに見られる事前学習と推論のミスマッチに対処するためのスワップ法を提案し、(ii)モデルの能力をより効果的に利用するためのマルチクラスターマスク付き予測損失を組み込む。その結果、MS-HuBERTは、ロバストな音声表現を学習するためのエンドツーエンドの自己教師付き事前学習法となった。この手法は、ASR Librispeechベンチマークにおいて、異なるファインチューニング分割で評価した場合、平均で5%のマージンでバニラHuBERTを上回る。さらに、事前学習中に得られた学習埋め込みが、ASRのようなコンテンツベースのタスクの性能向上に不可欠な情報を包含していることを実証する。

要約(オリジナル)

In recent years, self-supervised pre-training methods have gained significant traction in learning high-level information from raw speech. Among these methods, HuBERT has demonstrated SOTA performance in automatic speech recognition (ASR). However, HuBERT’s performance lags behind data2vec due to disparities in pre-training strategies. In this paper, we propose (i) a Swap method to address pre-training and inference mismatch observed in HuBERT and (ii) incorporates Multicluster masked prediction loss for more effective utilization of the models capacity. The resulting method is, MS-HuBERT, an end-to-end self-supervised pre-training method for learning robust speech representations. It beats vanilla HuBERT on the ASR Librispeech benchmark on average by a 5% margin when evaluated on different finetuning splits. Additionally, we demonstrate that the learned embeddings obtained during pre-training encode essential information for improving performance of content based tasks such as ASR.

arxiv情報

著者 Hemant Yadav,Sunayana Sitaram,Rajiv Ratn Shah
発行日 2025-02-03 06:26:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク