Continual Learning in Machine Speech Chain Using Gradient Episodic Memory

要約

自動音声認識 (ASR) システムの継続的な学習には、特に以前に学習したタスクのパフォーマンスを維持しながら壊滅的な忘れを回避する必要があるという課題が伴います。
この論文では、機械音声チェーン フレームワークを活用して、勾配エピソード記憶 (GEM) を使用した ASR での継続学習を可能にする新しいアプローチを紹介します。
マシンの音声チェーン内にテキスト読み上げ (TTS) コンポーネントを組み込むことで、GEM に不可欠な再生メカニズムがサポートされ、ASR モデルが以前のタスクのパフォーマンスを大幅に低下させることなく、新しいタスクを順次学習できるようになります。
LJ Speech データセットに対して行われた私たちの実験は、私たちの方法が従来の微調整およびマルチタスク学習アプローチよりも優れており、さまざまなノイズ条件下で高いパフォーマンスを維持しながら大幅なエラー率の削減を達成していることを示しています。
私たちは、音声認識における効果的かつ効率的な継続学習に対する半教師あり機械音声連鎖アプローチの可能性を示しました。

要約(オリジナル)

Continual learning for automatic speech recognition (ASR) systems poses a challenge, especially with the need to avoid catastrophic forgetting while maintaining performance on previously learned tasks. This paper introduces a novel approach leveraging the machine speech chain framework to enable continual learning in ASR using gradient episodic memory (GEM). By incorporating a text-to-speech (TTS) component within the machine speech chain, we support the replay mechanism essential for GEM, allowing the ASR model to learn new tasks sequentially without significant performance degradation on earlier tasks. Our experiments, conducted on the LJ Speech dataset, demonstrate that our method outperforms traditional fine-tuning and multitask learning approaches, achieving a substantial error rate reduction while maintaining high performance across varying noise conditions. We showed the potential of our semi-supervised machine speech chain approach for effective and efficient continual learning in speech recognition.

arxiv情報

著者 Geoffrey Tyndall,Kurniawati Azizah,Dipta Tanaya,Ayu Purwarianti,Dessi Puji Lestari,Sakriani Sakti
発行日 2024-11-27 13:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク