Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

要約

事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの大規模なモデルを低遅延環境やリソースに制約のある環境で実行することが困難になります。
この作業では、擬似ラベル付けを利用して大規模なオープンソース データセットを組み立て、これを使用して Whisper モデルを Distil-Whisper と呼ばれるより小さなバリアントに抽出します。
シンプルな単語誤り率 (WER) ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。
抽出されたモデルは、51% 少ないパラメーターで 5.8 倍高速になり、ゼロショット転送設定で配布外のテスト データで 1% 以内の WER を実現します。
Distil-Whisper は、困難な音響条件に対する Whisper モデルの堅牢性を維持しながら、長時間オーディオでの幻覚エラーが発生しにくくなっています。
Distil-Whisper は、投機的デコード用に Whisper と組み合わせるように設計されており、元のモデルと同じ出力を数学的に保証しながら 2 倍のスピードアップを実現します。
この分野でのさらなる研究を促進するために、私たちはトレーニング コード、推論コード、モデルを一般にアクセスできるようにしています。

要約(オリジナル)

As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.

arxiv情報

著者 Sanchit Gandhi,Patrick von Platen,Alexander M. Rush
発行日 2023-11-01 10:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク