An Effective Training Framework for Light-Weight Automatic Speech Recognition Models

要約

深い学習における最近の進歩により、計算およびメモリの制約を無視しながら有望な結果を達成する大規模な自動音声認識(ASR)モデルの開発が促進されました。
ただし、このようなモデルを低リソースデバイスに展開することは、好ましいパフォーマンスにもかかわらず実用的ではありません。
既存のアプローチ(剪定、蒸留、レイヤースキップなど)は、パフォーマンスの大幅な劣化を犠牲にして大きなモデルを小さなモデルに変換するか、より良いパフォーマンスのために小さなモデルの長期トレーニングを必要とします。
これらの問題に対処するために、限られた数のエポックでかなり良いパフォーマンスを確保するために、単一の大規模モデルからいくつかの小さなサイズのモデルを生成できる効果的な2段階表現学習ベースのアプローチを導入します。
ASRベンチマークでの包括的な実験は、私たちのアプローチの有効性を明らかにし、3倍のトレーニングスピードアップと最大12.54%のワードエラー率の改善を達成します。

要約(オリジナル)

Recent advancement in deep learning encouraged developing large automatic speech recognition (ASR) models that achieve promising results while ignoring computational and memory constraints. However, deploying such models on low resource devices is impractical despite of their favorable performance. Existing approaches (pruning, distillation, layer skip etc.) transform the large models into smaller ones at the cost of significant performance degradation or require prolonged training of smaller models for better performance. To address these issues, we introduce an efficacious two-step representation learning based approach capable of producing several small sized models from a single large model ensuring considerably better performance in limited number of epochs. Comprehensive experimentation on ASR benchmarks reveals the efficacy of our approach, achieving three-fold training speed-up and up to 12.54% word error rate improvement.

arxiv情報

著者 Abdul Hannan,Alessio Brutti,Shah Nawaz,Mubashir Noman
発行日 2025-05-22 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク