要約
トレーニング済みの自動音声認識 (ASR) モデルを新しいタスクに適応させると、古いタスクを壊滅的に忘れてしまい、モデルが継続的に学習し、新しい話者、方言、言語などに拡張する能力が制限されます。エンドツーエンドの ASR に焦点を当てる
、この論文では、壊滅的な忘却を克服するためのシンプルで効果的な方法、つまり重みの平均化を提案します。
以前のモデルと適応されたモデルの平均を取るだけで、私たちの方法は古いタスクと新しいタスクの両方で高いパフォーマンスを達成します。
適応中に知識の蒸留損失を導入することにより、さらに改善できます。
単一言語と多言語の両方の ASR での方法の有効性を示します。
どちらの場合も、最も単純な形式であっても、私たちの方法はすべてのベースラインよりもはるかに優れています。
要約(オリジナル)
Adapting a trained Automatic Speech Recognition (ASR) model to new tasks results in catastrophic forgetting of old tasks, limiting the model’s ability to learn continually and to be extended to new speakers, dialects, languages, etc. Focusing on End-to-End ASR, in this paper, we propose a simple yet effective method to overcome catastrophic forgetting: weight averaging. By simply taking the average of the previous and the adapted model, our method achieves high performance on both the old and new tasks. It can be further improved by introducing a knowledge distillation loss during the adaptation. We illustrate the effectiveness of our method on both monolingual and multilingual ASR. In both cases, our method strongly outperforms all baselines, even in its simplest form.
arxiv情報
著者 | Steven Vander Eeckt,Hugo Van hamme |
発行日 | 2023-03-09 11:41:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google