Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End Speech Recognition

要約

人間の言語の動的な性質により、自動音声認識 (ASR) システムは新しい語彙を継続的に取得する必要があります。
流行語や新しい名前付きエンティティなどの語彙外 (OOV) 単語は、多数のパラメーターを適応させるために長いトレーニング時間を必要とする最新の ASR システムに問題を引き起こします。
言語モデルの後処理に焦点を当てたこれまでのほとんどの研究とは異なり、我々はこの問題を初期の処理レベルで取り組み、OOV 単語を音響的に認識するための音響モデリングのバイアスを排除します。
テキスト読み上げシステムを使用してOOV単語を生成し、損失を再スケーリングして、ニューラルネットワークがOOV単語により多くの注意を払うようにすることを提案します。
具体的には、OOV 単語 (文レベル) を含む発話のニューラル ネットワークのパラメーターのトレーニングに使用される分類損失を拡大するか、OOV 単語 (単語レベル) の逆伝播に使用される勾配を再スケーリングします。
合成オーディオのモデル。
壊滅的な忘却を克服するために、損失の再スケーリングとモデルの正則化、つまり L2 正則化と Elastic Weight Consolidation (EWC) の組み合わせも調査します。
EWC を使用して合成オーディオを微調整するだけの以前の方法と比較して、LibriSpeech ベンチマークの実験結果は、提案された損失再スケーリング アプローチが、単語エラー率をわずかに減少させるだけで、再現率を大幅に改善できることを明らかにしています。
さらに、単語レベルの再スケーリングは、発話レベルの再スケーリングよりも安定しており、OOV 単語認識の再現率と精度が高くなります。
さらに、提案された損失の再スケーリングと重みの統合方法を組み合わせることで、ASR システムの継続的な学習をサポートできます。

要約(オリジナル)

Due to the dynamic nature of human language, automatic speech recognition (ASR) systems need to continuously acquire new vocabulary. Out-Of-Vocabulary (OOV) words, such as trending words and new named entities, pose problems to modern ASR systems that require long training times to adapt their large numbers of parameters. Different from most previous research focusing on language model post-processing, we tackle this problem on an earlier processing level and eliminate the bias in acoustic modeling to recognize OOV words acoustically. We propose to generate OOV words using text-to-speech systems and to rescale losses to encourage neural networks to pay more attention to OOV words. Specifically, we enlarge the classification loss used for training neural networks’ parameters of utterances containing OOV words (sentence-level), or rescale the gradient used for back-propagation for OOV words (word-level), when fine-tuning a previously trained model on synthetic audio. To overcome catastrophic forgetting, we also explore the combination of loss rescaling and model regularization, i.e. L2 regularization and elastic weight consolidation (EWC). Compared with previous methods that just fine-tune synthetic audio with EWC, the experimental results on the LibriSpeech benchmark reveal that our proposed loss rescaling approach can achieve significant improvement on the recall rate with only a slight decrease on word error rate. Moreover, word-level rescaling is more stable than utterance-level rescaling and leads to higher recall rates and precision on OOV word recognition. Furthermore, our proposed combined loss rescaling and weight consolidation methods can support continual learning of an ASR system.

arxiv情報

著者 Leyuan Qu,Cornelius Weber,Stefan Wermter
発行日 2023-02-21 09:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク