Task-Agnostic Structured Pruning of Speech Representation Models

要約

Wav2vec2、Hubert、WavLM などの自己教師付き事前トレーニング モデルは、多くの音声タスクを大幅に改善することが示されています。
ただし、大容量のメモリと強力な計算要件により、産業上の利用可能性が妨げられます。
構造化枝刈りはハードウェアに優しいモデル圧縮手法ですが、通常は精度が大幅に失われます。
この論文では、パフォーマンスの低下を補償するためのきめ細かいアテンションヘッドプルーニング手法を提案します。
さらに、枝刈りモデルをさらに高速化するために、L0 正則化にストレートスルー推定量も導入します。
SUPERB ベンチマークの実験では、このモデルが複数のタスクで高密度モデルと同等のパフォーマンスを達成でき、平均して Wav2vec 2.0 基本モデルを上回り、パラメーターが 72% 少なく、推論速度が 2 倍高速であることが示されています。

要約(オリジナル)

Self-supervised pre-trained models such as Wav2vec2, Hubert, and WavLM have been shown to significantly improve many speech tasks. However, their large memory and strong computational requirements hinder their industrial applicability. Structured pruning is a hardware-friendly model compression technique but usually results in a larger loss of accuracy. In this paper, we propose a fine-grained attention head pruning method to compensate for the performance degradation. In addition, we also introduce the straight through estimator into the L0 regularization to further accelerate the pruned model. Experiments on the SUPERB benchmark show that our model can achieve comparable performance to the dense model in multiple tasks and outperforms the Wav2vec 2.0 base model on average, with 72% fewer parameters and 2 times faster inference speed.

arxiv情報

著者 Haoyu Wang,Siyuan Wang,Wei-Qiang Zhang,Hongbin Suo,Yulong Wan
発行日 2023-07-09 06:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク