Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates

要約

このペーパーでは、モデルの剪定とパラメーターの更新を単一の段階にしっかりと統合する音声基礎モデルの圧縮のための新しいアプローチを紹介します。
単一の学習可能なしきい値のみを含む非常にコンパクトなレイヤーレベルの結ばれた自己ピンピンゲートは、非圧縮モデルと共同で訓練され、細粒ニューロンレベルの剪定で使用されます。
Librispeech-100HR Corpusで実施された実験は、このアプローチがWAV2VEC2.0ベースおよびヒューベルト – ラージモデルのパラメーターの数をそれぞれ65%および60%減らすことを示唆していますが、テストクリーンデータセットでは統計的に有意な単語エラー率(WER)の増加はありません。
以前に公開された同じタスクで公開された方法と比較して、私たちのアプローチは、4.26Xの比較可能なモデル圧縮率の下でテストクリーンデータセットで7.05%の最低WERを達成するだけでなく、少なくとも25%少ないモデル圧縮時間で動作します。

要約(オリジナル)

This paper presents a novel approach for speech foundation models compression that tightly integrates model pruning and parameter update into a single stage. Highly compact layer-level tied self-pinching gates each containing only a single learnable threshold are jointly trained with uncompressed models and used in fine-grained neuron level pruning. Experiments conducted on the LibriSpeech-100hr corpus suggest that our approach reduces the number of parameters of wav2vec2.0-base and HuBERT-large models by 65% and 60% respectively, while incurring no statistically significant word error rate (WER) increase on the test-clean dataset. Compared to previously published methods on the same task, our approach not only achieves the lowest WER of 7.05% on the test-clean dataset under a comparable model compression ratio of 4.26x, but also operates with at least 25% less model compression time.

arxiv情報

著者 Haoning Xu,Zhaoqing Li,Youjun Chen,Huimeng Wang,Guinan Li,Mengzhe Geng,Chengxi Deng,Xunying Liu
発行日 2025-05-28 17:24:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク