Regularizing Learnable Feature Extraction for Automatic Speech Recognition

要約

ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、自動音声認識(ASR)システムのための従来の固定機能抽出パイプラインに代わる魅力的な代替品です。
ただし、そのパフォーマンスは、古典的な方法と比較して不足していることがよくあります。これは、主に過剰適合に対する感受性が増加していることを示しています。
したがって、この作業は、学習可能な機能抽出フロントエンドでASRモデルをトレーニングするための正則化方法を調査します。
まず、オーディオ摂動方法を調べ、学習可能な機能のためにより大きな相対的な改善を取得できることを示します。
さらに、これらのフロントエンドのスペシアグメントの標準使用における2つの制限を特定し、これらの課題に対処するためのシンプルだが効果的な変更として、短時間フーリエ変換(STFT)ドメインでマスキングを提案します。
最後に、両方の正規化アプローチを統合すると、従来の機能と学習可能な機能のパフォーマンスギャップが効果的に閉じられます。

要約(オリジナル)

Neural front-ends are an appealing alternative to traditional, fixed feature extraction pipelines for automatic speech recognition (ASR) systems since they can be directly trained to fit the acoustic model. However, their performance often falls short compared to classical methods, which we show is largely due to their increased susceptibility to overfitting. This work therefore investigates regularization methods for training ASR models with learnable feature extraction front-ends. First, we examine audio perturbation methods and show that larger relative improvements can be obtained for learnable features. Additionally, we identify two limitations in the standard use of SpecAugment for these front-ends and propose masking in the short time Fourier transform (STFT)-domain as a simple but effective modification to address these challenges. Finally, integrating both regularization approaches effectively closes the performance gap between traditional and learnable features.

arxiv情報

著者 Peter Vieting,Maximilian Kannen,Benedikt Hilmes,Ralf Schlüter,Hermann Ney
発行日 2025-06-11 14:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク