uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

要約

擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の研究では、サイズを最大 50\% 削減しながら、有望なパフォーマンスが示されています。
これにより、小型で効率的な専用モデルが実現します。
ただし、擬似ラベルから抽出する重要なステップには、高品質の予測をフィルタリングし、トレーニング中にそれらのみを使用することが含まれます。
このステップでは、グラウンド トゥルース ラベルが低品質のサンプルを比較およびフィルタリングして、プロセス全体を監視する必要があります。
それに加えて、蒸留プロセスには大量のデータが必要となるため、低リソース設定でモデルを蒸留する能力が制限されます。
この課題に対処するために、ラベル付きデータを必要としない蒸留フレームワークを提案します。
実験を通じて、最良の抽出モデルは、フィルタリングなしのモデルと比較して、WER の点で教師モデルを 5 ~ 7 ポイント上回っており、同様の教師ありデータ フィルタリング設定と同等か、それよりも優れたパフォーマンスを発揮することを示しています。
データをスケーリングすると、モデルはすべてのゼロショット モデルや教師ありモデルよりも大幅に優れたパフォーマンスを発揮します。
ラベル付きデータを使用せずに、大規模な Whisper モデルを比較的小さなウィスパー モデルに抽出できることを示します。
また、抽出されたモデルは、教師モデルと同等以上のパフォーマンスを維持しながら、計算効率とメモリ効率が 25 ~ 50\% 向上しています。

要約(オリジナル)

Recent work on distilling Whisper’s knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth labels to compare and filter low-quality examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distill models in low-resource settings. To address this challenge, we propose a distillation framework that does not require any labeled data. Through experimentation, we show that our best distilled models outperform the teacher model by 5-7 points in terms of WER compared to those without filtering and are on par with or perform better than similar supervised data filtering setups. When we scale the data, our models significantly outperform all zero-shot and supervised models. We demonstrate that it is possible to distill large Whisper models into relatively small ones without using any labeled data. Our distilled models are also 25-50\% more compute- and memory-efficient while maintaining performance equal to or better than that of the teacher model.

arxiv情報

著者 Abdul Waheed,Karima Kadaoui,Bhiksha Raj,Muhammad Abdul-Mageed
発行日 2024-10-17 16:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク