要約
最近の進歩にもかかわらず、自動音声認識 (ASR) システムはまだ完璧には程遠いです。
一般的なエラーには、データがほとんどまたはまったくない、頭字語、名前付きエンティティ、およびドメイン固有の特殊な単語が含まれます。
これらの単語を認識するという問題に対処するために、自己教師ありの継続的学習アプローチを提案します。
講義の音声と対応するスライドを考慮して、以前の研究の記憶強化された ASR モデルを使用して、スライドから新しい単語を解読する方向にモデルをバイアスします。
次に、会話に対して推論を実行し、検出された新しい単語を含む発話を適応データセットに収集します。
次に、モデルの各重み行列に追加される低ランクの行列の重みを適応させることによって、このセットに対して継続的な学習が実行されます。
この手順全体が多くのトークで繰り返されます。
このアプローチでは、モデルの全体的なパフォーマンスを維持しながら、新しい単語がより頻繁に出現するとき (再現率 80% 以上) にパフォーマンスが向上することを示します。
要約(オリジナル)
Despite recent advances, Automatic Speech Recognition (ASR) systems are still far from perfect. Typical errors include acronyms, named entities and domain-specific special words for which little or no data is available. To address the problem of recognizing these words, we propose an self-supervised continual learning approach. Given the audio of a lecture talk with corresponding slides, we bias the model towards decoding new words from the slides by using a memory-enhanced ASR model from previous work. Then, we perform inference on the talk, collecting utterances that contain detected new words into an adaptation dataset. Continual learning is then performed on this set by adapting low-rank matrix weights added to each weight matrix of the model. The whole procedure is iterated for many talks. We show that with this approach, we obtain increasing performance on the new words when they occur more frequently (more than 80% recall) while preserving the general performance of the model.
arxiv情報
著者 | Christian Huber,Alexander Waibel |
発行日 | 2024-07-17 13:01:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google