要約
事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの大規模なモデルを低遅延環境やリソースに制約のある環境で実行することが困難になります。
この作業では、擬似ラベル付けを利用して大規模なオープンソース データセットを組み立て、これを使用して Whisper モデルを Distil-Whisper と呼ばれるより小さなバリアントに抽出します。
シンプルな単語誤り率 (WER) ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。
抽出されたモデルは、51% 少ないパラメーターで 5.8 倍高速になり、ゼロショット転送設定で配布外のテスト データで 1% 以内の WER を実現します。
Distil-Whisper は、困難な音響条件に対する Whisper モデルの堅牢性を維持しながら、長時間オーディオでの幻覚エラーが発生しにくくなっています。
Distil-Whisper は、投機的デコード用に Whisper と組み合わせるように設計されており、元のモデルと同じ出力を数学的に保証しながら 2 倍のスピードアップを実現します。
この分野でのさらなる研究を促進するために、私たちはトレーニング コード、推論コード、モデルを一般にアクセスできるようにしています。
要約(オリジナル)
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
arxiv情報
著者 | Sanchit Gandhi,Patrick von Platen,Alexander M. Rush |
発行日 | 2023-11-01 10:45:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google