One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model

要約

オールインワンのニューラル モデルを使用した、新しいワンパス複数 ASR システムの統合圧縮および量子化アプローチを提案します。
単一の圧縮サイクルにより、さまざまなエンコーダーの深さ、幅、量子化精度設定を持つ複数のネストされたシステムを同時に構築でき、個々のターゲット システムを個別にトレーニングして保存する必要はありません。
実験では、単一のオールインワン モデルで圧縮された複数の ASR システムが、同じ複雑さの個別にトレーニングされたシステムと比較して、絶対値 1.01\% (相対値 6.98\%) と同等か、またはそれよりも低い単語誤り率 (WER) を生成することを一貫して示しています。

システム全体の 3.4 倍の圧縮とトレーニング時間の高速化が達成されました。
ベースラインの Switchboard-300hr Conformer および LibriSpeech-100hr の微調整 wav2vec2.0 モデルに対して、それぞれ 12.8x および 3.93x の最大モデル サイズ圧縮率が得られ、統計的に有意な WER の増加は発生しませんでした。

要約(オリジナル)

We propose a novel one-pass multiple ASR systems joint compression and quantization approach using an all-in-one neural model. A single compression cycle allows multiple nested systems with varying Encoder depths, widths, and quantization precision settings to be simultaneously constructed without the need to train and store individual target systems separately. Experiments consistently demonstrate the multiple ASR systems compressed in a single all-in-one model produced a word error rate (WER) comparable to, or lower by up to 1.01\% absolute (6.98\% relative) than individually trained systems of equal complexity. A 3.4x overall system compression and training time speed-up was achieved. Maximum model size compression ratios of 12.8x and 3.93x were obtained over the baseline Switchboard-300hr Conformer and LibriSpeech-100hr fine-tuned wav2vec2.0 models, respectively, incurring no statistically significant WER increase.

arxiv情報

著者 Zhaoqing Li,Haoning Xu,Tianzi Wang,Shoukang Hu,Zengrui Jin,Shujie Hu,Jiajun Deng,Mingyu Cui,Mengzhe Geng,Xunying Liu
発行日 2024-06-14 16:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク