Task-Agnostic Structured Pruning of Speech Representation Models


Wav2vec2、Hubert、WavLM などの自己教師付き事前トレーニング モデルは、多くの音声タスクを大幅に改善することが示されています。
さらに、枝刈りモデルをさらに高速化するために、L0 正則化にストレートスルー推定量も導入します。
SUPERB ベンチマークの実験では、このモデルが複数のタスクで高密度モデルと同等のパフォーマンスを達成でき、平均して Wav2vec 2.0 基本モデルを上回り、パラメーターが 72% 少なく、推論速度が 2 倍高速であることが示されています。


Self-supervised pre-trained models such as Wav2vec2, Hubert, and WavLM have been shown to significantly improve many speech tasks. However, their large memory and strong computational requirements hinder their industrial applicability. Structured pruning is a hardware-friendly model compression technique but usually results in a larger loss of accuracy. In this paper, we propose a fine-grained attention head pruning method to compensate for the performance degradation. In addition, we also introduce the straight through estimator into the L0 regularization to further accelerate the pruned model. Experiments on the SUPERB benchmark show that our model can achieve comparable performance to the dense model in multiple tasks and outperforms the Wav2vec 2.0 base model on average, with 72% fewer parameters and 2 times faster inference speed.


著者 Haoyu Wang,Siyuan Wang,Wei-Qiang Zhang,Hongbin Suo,Yulong Wan
発行日 2023-07-09 06:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク