Task-Agnostic Structured Pruning of Speech Representation Models

要約

Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデルは、多くの音声タスクを大幅に改善することが示されている。しかし、メモリ容量が大きく、計算量が多いため、産業への応用は困難である。構造化刈り込みは、ハードウェアに優しいモデル圧縮技術ですが、通常、精度の損失が大きくなります。本論文では、性能劣化を補うために、きめ細かなアテンションヘッドプルーニング法を提案する。さらに、L0正則化にストレートスルー推定器を導入し、刈り込みモデルをさらに高速化させる。SUPERBベンチマークでの実験により、我々のモデルは複数のタスクにおいて密なモデルと同等の性能を達成し、72%少ないパラメータと2倍速い推論速度で、平均してWav2vec 2.0ベースモデルを上回る性能を持つことが示された。

要約(オリジナル)

Self-supervised pre-trained models such as Wav2vec2, Hubert, and WavLM have been shown to significantly improve many speech tasks. However, their large memory and strong computational requirements hinder their industrial applicability. Structured pruning is a hardware-friendly model compression technique but usually results in a larger loss of accuracy. In this paper, we propose a fine-grained attention head pruning method to compensate for the performance degradation. In addition, we also introduce the straight through estimator into the L0 regularization to further accelerate the pruned model. Experiments on the SUPERB benchmark show that our model can achieve comparable performance to the dense model in multiple tasks and outperforms the Wav2vec 2.0 base model on average, with 72% fewer parameters and 2 times faster inference speed.

arxiv情報

著者 Haoyu Wang,Siyuan Wang,Wei-Qiang Zhang,Hongbin Suo,Yulong Wan
発行日 2023-06-02 09:11:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク