Training dynamic models using early exits for automatic speech recognition on resource-constrained devices

要約

推論時にニューラル モデルの計算負荷を動的に変更できることは、計算能力が限られ、時間とともに変化するオンデバイス処理にとって非常に重要です。
ニューラル モデル圧縮のための確立されたアプローチは存在しますが、それらはアーキテクチャ的に静的なモデルを提供します。
この論文では、大規模語彙の音声認識に適用される、中間出口分岐に依存する早期出口アーキテクチャの使用を調査します。
これにより、利用可能なリソースと認識パフォーマンスに合わせて計算コストを調整する動的モデルの開発が可能になります。
以前の作品とは異なり、事前トレーニングされたバックボーンを使用することに加えて、早期終了アーキテクチャを使用してモデルを最初からトレーニングします。
公開データセットでの実験では、最初から早期終了アーキテクチャを使用すると、使用するエンコーダー層が少ない場合でもパフォーマンス レベルが維持されるだけでなく、単一終了モデルや事前トレーニング済みモデルを使用する場合と比較してタスクの精度も向上することが示されています。
さらに、フレームベースのエントロピーの代替として、事後確率に基づいた出口選択戦略を調査します。

要約(オリジナル)

The possibility of dynamically modifying the computational load of neural models at inference time is crucial for on-device processing, where computational power is limited and time-varying. Established approaches for neural model compression exist, but they provide architecturally static models. In this paper, we investigate the use of early-exit architectures, that rely on intermediate exit branches, applied to large-vocabulary speech recognition. This allows for the development of dynamic models that adjust their computational cost to the available resources and recognition performance. Unlike previous works, besides using pre-trained backbones we also train the model from scratch with an early-exit architecture. Experiments on public datasets show that early-exit architectures from scratch not only preserve performance levels when using fewer encoder layers, but also improve task accuracy as compared to using single-exit models or using pre-trained models. Additionally, we investigate an exit selection strategy based on posterior probabilities as an alternative to frame-based entropy.

arxiv情報

著者 George August Wright,Umberto Cappellazzo,Salah Zaiem,Desh Raj,Lucas Ondel Yang,Daniele Falavigna,Alessio Brutti
発行日 2023-09-18 07:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク