Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition

要約

近年、音声処理における自己教師あり学習 (SSL) が大きく進歩しています。
SSL モデルは通常、多種多様なラベルのないデータで事前にトレーニングされており、モデリング容量を増やすには大きなモデル サイズが推奨されます。
ただし、これは、特大モデルによって導入される高価な計算とメモリ コストのために、潜在的なアプリケーションを制限する可能性があります。
SSL モデルの小型化は、実用的な価値のある重要な研究の方向性になっています。
この目的のために、自動音声認識 (ASR) のための HuBERT ベースの SSL モデルの効果的な蒸留を探ります。
まず、強力なベースラインを確立するために、さまざまな学生モデル構造に関する包括的な研究が行われます。
これに加えて、以前の研究で広く採用されていた回帰損失を補うものとして、HuBERT に識別損失が導入され、特にリソースの少ないシナリオで蒸留性能が向上しました。
さらに、波形から Fbank 機能へのフロントエンド入力を抽出するシンプルで効果的なアルゴリズムを設計し、パフォーマンスの低下を最小限に抑えながら、パラメーターを 17% 削減し、推論速度を 2 倍にします。

要約(オリジナル)

Recent years have witnessed great strides in self-supervised learning (SSL) on the speech processing. The SSL model is normally pre-trained on a great variety of unlabelled data and a large model size is preferred to increase the modeling capacity. However, this might limit its potential applications due to the expensive computation and memory costs introduced by the oversize model. Miniaturization for SSL models has become an important research direction of practical value. To this end, we explore the effective distillation of HuBERT-based SSL models for automatic speech recognition (ASR). First, in order to establish a strong baseline, a comprehensive study on different student model structures is conducted. On top of this, as a supplement to the regression loss widely adopted in previous works, a discriminative loss is introduced for HuBERT to enhance the distillation performance, especially in low-resource scenarios. In addition, we design a simple and effective algorithm to distill the front-end input from waveform to Fbank feature, resulting in 17% parameter reduction and doubling inference speed, at marginal performance degradation.

arxiv情報

著者 Yujin Wang,Changli Tang,Ziyang Ma,Zhisheng Zheng,Xie Chen,Wei-Qiang Zhang
発行日 2023-02-22 08:08:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク