Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

要約

HuBERT などのトランスフォーマーベースの音声自己教師あり学習 (SSL) モデルは、さまざまな音声処理タスクで驚くべきパフォーマンスを示します。
ただし、音声 SSL モデルには膨大な数のパラメーターがあるため、学術界や小規模企業で広く使用するには、よりコンパクトなモデルに圧縮する必要があります。
この研究では、レイヤーの数を維持しながらキーとクエリのパラメーターを削除するために、Transformer レイヤー全体でアテンション マップを再利用することを提案します。
さらに、学生モデルの音声表現の品質を向上させるための新しいマスキング蒸留戦略を提案します。
教師モデルの高品質表現を最大限に活用するために、マスクされた音声フレームとマスクされていない音声フレームの両方を利用するように蒸留損失を拡張します。
私たちのユニバーサル圧縮戦略により、SUPERB ベンチマークで 7.72% の音素誤り率 (PER) と 9.96% の単語誤り率 (WER) を達成するスチューデント モデルが得られます。

要約(オリジナル)

Transformer-based speech self-supervised learning (SSL) models, such as HuBERT, show surprising performance in various speech processing tasks. However, huge number of parameters in speech SSL models necessitate the compression to a more compact model for wider usage in academia or small companies. In this study, we suggest to reuse attention maps across the Transformer layers, so as to remove key and query parameters while retaining the number of layers. Furthermore, we propose a novel masking distillation strategy to improve the student model’s speech representation quality. We extend the distillation loss to utilize both masked and unmasked speech frames to fully leverage the teacher model’s high-quality representation. Our universal compression strategy yields the student model that achieves phoneme error rate (PER) of 7.72% and word error rate (WER) of 9.96% on the SUPERB benchmark.

arxiv情報

著者 Kangwook Jang,Sungnyun Kim,Se-Young Yun,Hoirin Kim
発行日 2023-05-19 14:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク