Efficient infusion of self-supervised representations in Automatic Speech Recognition

要約

Wav2vec や HuBERT などの自己教師学習 (SSL) モデルは、音声関連のタスクで最先端の結果をもたらします。
このようなモデルの有効性を考慮すると、従来の ASR システムで使用することが有利です。
一部のアプローチでは、これらのモデルをトレーニング可能なエンコーダーまたは学習可能なフロントエンドとして組み込むことを提案していますが、そのようなシステムのトレーニングは非常に時間がかかり、多くの計算サイクルが必要です。
この研究では、(1) フレーム単位の加算と (2) クロスアテンション メカニズムを使用して、SSL モデルの表現を ASR アーキテクチャに効率的に組み込む 2 つの単純なアプローチを提案します。これにより、サイズが ASR アーキテクチャに匹敵するモデルが得られます。
標準のエンコーダー/デコーダーコンフォーマーシステムを利用しながら、トレーニング中の SSL モデルの使用も回避します。
私たちのアプローチにより、ベースラインと比較してトレーニングが高速化され、Librispeech および Tedlium データセットのパフォーマンスが大幅に向上します。
さらに、当社のアプローチの有効性を実証する詳細な分析とアブレーション研究も提供します。

要約(オリジナル)

Self-supervised learned (SSL) models such as Wav2vec and HuBERT yield state-of-the-art results on speech-related tasks. Given the effectiveness of such models, it is advantageous to use them in conventional ASR systems. While some approaches suggest incorporating these models as a trainable encoder or a learnable frontend, training such systems is extremely slow and requires a lot of computation cycles. In this work, we propose two simple approaches that use (1) framewise addition and (2) cross-attention mechanisms to efficiently incorporate the representations from the SSL model(s) into the ASR architecture, resulting in models that are comparable in size with standard encoder-decoder conformer systems while also avoiding the usage of SSL models during training. Our approach results in faster training and yields significant performance gains on the Librispeech and Tedlium datasets compared to baselines. We further provide detailed analysis and ablation studies that demonstrate the effectiveness of our approach.

arxiv情報

著者 Darshan Prabhu,Sai Ganesh Mirishkar,Pankaj Wasnik
発行日 2024-04-19 05:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク