要約
自動音声認識 (ASR) モデルは、デバイスに展開する前に、特定のハードウェアに合わせて最適化する必要があります。
これは、モデルのハイパーパラメータを調整するか、そのアーキテクチャのバリエーションを調査することによって実行できます。
これらの変更を加えた後のモデルの再トレーニングと再検証は、リソースを大量に消費するタスクになる可能性があります。
このペーパーでは、単一のトレーニング ジョブと同等の GPU 時間で、さまざまなサイズのハードウェア フレンドリーなオンデバイス ASR モデルを効率的にトレーニングするための新しいアプローチである TODM (Train Once Deploy Many) について説明します。
TODM は、リカレント ニューラル ネットワーク トランスデューサー (RNN-T) モデルがスーパーネット内で重みを共有する、スーパーネットに関する以前の研究からの洞察を活用します。
スーパーネットのレイヤー サイズと幅を縮小してサブネットワークを取得し、すべてのハードウェア タイプに適したより小さなモデルにします。
TODM スーパーネットの成果を向上させるために、適応型ドロップアウト、インプレース アルファ分岐知識蒸留、および ScaledAdam オプティマイザーの使用という 3 つの手法の新しい組み合わせを導入します。
LibriSpeech を使用して、スーパーネットでトレーニングされた RNN-T と個別に調整されたマルチヘッド状態空間モデル (MH-SSM) RNN-T を比較することで、アプローチを検証します。
結果は、当社の TODM スーパーネットが、多くのモデルのトレーニングにかかるコストを効率的に小さな一定に保ちながら、単語誤り率 (WER) において、手動で調整したモデルのパフォーマンスと同等かそれを上回っていることを示しています。
要約(オリジナル)
Automatic Speech Recognition (ASR) models need to be optimized for specific hardware before they can be deployed on devices. This can be done by tuning the model’s hyperparameters or exploring variations in its architecture. Re-training and re-validating models after making these changes can be a resource-intensive task. This paper presents TODM (Train Once Deploy Many), a new approach to efficiently train many sizes of hardware-friendly on-device ASR models with comparable GPU-hours to that of a single training job. TODM leverages insights from prior work on Supernet, where Recurrent Neural Network Transducer (RNN-T) models share weights within a Supernet. It reduces layer sizes and widths of the Supernet to obtain subnetworks, making them smaller models suitable for all hardware types. We introduce a novel combination of three techniques to improve the outcomes of the TODM Supernet: adaptive dropouts, an in-place Alpha-divergence knowledge distillation, and the use of ScaledAdam optimizer. We validate our approach by comparing Supernet-trained versus individually tuned Multi-Head State Space Model (MH-SSM) RNN-T using LibriSpeech. Results demonstrate that our TODM Supernet either matches or surpasses the performance of manually tuned models by up to a relative of 3% better in word error rate (WER), while efficiently keeping the cost of training many models at a small constant.
arxiv情報
著者 | Yuan Shangguan,Haichuan Yang,Danni Li,Chunyang Wu,Yassir Fathullah,Dilin Wang,Ayushi Dalmia,Raghuraman Krishnamoorthi,Ozlem Kalinli,Junteng Jia,Jay Mahadeokar,Xin Lei,Mike Seltzer,Vikas Chandra |
発行日 | 2023-09-05 04:47:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google