要約
wav2vec 2.0 や HuBERT などのモデル アーキテクチャは、自己教師ありの方法で音声波形から音声表現を学習するために提案されています。
これらをキーワードスポッティングや話者検証などの下流タスクと組み合わせると、最先端のパフォーマンスが提供されます。
ただし、これらのモデルは多数のパラメーターを使用し、その最小バージョンには 9,500 万個のパラメーターがあります。
これは、エッジ AI デバイスの導入にとって課題となります。
この論文では、音声表現学習 (SRL) モデルへの知識蒸留の適用と、それに続く複数の下流の音声起動タスクとの共同微調整について調査します。
このような 2 つのタスクに関する実験では、私たちのアプローチにより、フルサイズ モデルと比較して、精度が 0.1%、等誤り率が 0.9% 低下するだけでありながら、モデル サイズが 75% 近く削減されました。
さらに、SRL モデルを微調整すると、凍結された SRL モデルを使用する場合と比較してパフォーマンスが大幅に向上することを示します。
要約(オリジナル)
Model architectures such as wav2vec 2.0 and HuBERT have been proposed to learn speech representations from audio waveforms in a self-supervised manner. When they are combined with downstream tasks such as keyword spotting and speaker verification, they provide state-of-the-art performance. However, these models use a large number of parameters, the smallest version of which has 95 million parameters. This constitutes a challenge for edge AI device deployments. In this paper, we investigate the application of knowledge distillation to speech representation learning (SRL) models followed by joint fine-tuning with multiple downstream voice-activated tasks. In our experiments on two such tasks, our approach results in nearly 75% reduction in model size while suffering only 0.1% accuracy and 0.9% equal error rate degradation compared to the full-size model. In addition, we show that fine-tuning the SRL models results in a significant performance boost compared to using frozen SRL models.
arxiv情報
著者 | Mine Kerpicci,Van Nguyen,Shuhua Zhang,Erik Visser |
発行日 | 2023-05-19 17:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google