要約
自己教師ありモデルの知識を圧縮するタスクには、多くの研究努力が注がれています。自己教師ありモデルは強力ですが、サイズが大きくメモリを消費します。
この研究では、知識蒸留の元の方法 (および最近提案された拡張である分離型知識蒸留) が HuBERT を蒸留するタスクに適用できることを示します。
内部特徴の抽出に重点を置く方法とは対照的に、これにより、圧縮モデルのネットワーク アーキテクチャの自由度が高まります。
したがって、我々は、HuBERT の Transformer 層を LSTM ベースの蒸留モデルに蒸留することを提案します。このモデルは、パラメータの数を DistilHuBERT よりもさらに削減し、同時に自動音声認識のパフォーマンスの向上を示します。
要約(オリジナル)
Much research effort is being applied to the task of compressing the knowledge of self-supervised models, which are powerful, yet large and memory consuming. In this work, we show that the original method of knowledge distillation (and its more recently proposed extension, decoupled knowledge distillation) can be applied to the task of distilling HuBERT. In contrast to methods that focus on distilling internal features, this allows for more freedom in the network architecture of the compressed model. We thus propose to distill HuBERT’s Transformer layers into an LSTM-based distilled model that reduces the number of parameters even below DistilHuBERT and at the same time shows improved performance in automatic speech recognition.
arxiv情報
著者 | Danilo de Oliveira,Timo Gerkmann |
発行日 | 2023-09-18 16:34:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google