要約
自動音声認識 (ASR) モデルは、教師なしまたは自己教師ありトレーニング手法の導入により大幅な進歩を示していますが、これらの改善は依然として言語と話者のサブセクションにのみ限定されています。
転移学習により、大規模な多言語モデルをリソースの少ない言語だけでなく、より特殊な話者グループにも適応させることができます。
ただし、新しいドメインのデータを微調整すると、通常、元のドメインのパフォーマンスの低下が伴います。
したがって、私たちの実験では、ドイツ上級音声コマンド (SVC-de) の独自のデータセットを使用して、小規模なドメインで大規模な ASR モデルのパフォーマンスをどの程度うまく近似できるか、また一般的な音声認識パフォーマンスがどの程度向上するかを調べます。
トレーニング中にモデルの一部を選択的にフリーズすることで保存されます。
微調整された領域外の語彙や話者に対する ASR モデルの堅牢性をさらに高めるために、継続的な学習のためにエクスペリエンス リプレイを適用します。
元のドメインのデータの一部のみを追加することで、新しいドメインで Word-Error-Rates (WER) を 5\% 未満に達成することができ、同時に一般的な音声認識のパフォーマンスを許容可能な WER で安定化させることができます。
要約(オリジナル)
While Automatic Speech Recognition (ASR) models have shown significant advances with the introduction of unsupervised or self-supervised training techniques, these improvements are still only limited to a subsection of languages and speakers. Transfer learning enables the adaptation of large-scale multilingual models to not only low-resource languages but also to more specific speaker groups. However, fine-tuning on data from new domains is usually accompanied by a decrease in performance on the original domain. Therefore, in our experiments, we examine how well the performance of large-scale ASR models can be approximated for smaller domains, with our own dataset of German Senior Voice Commands (SVC-de), and how much of the general speech recognition performance can be preserved by selectively freezing parts of the model during training. To further increase the robustness of the ASR model to vocabulary and speakers outside of the fine-tuned domain, we apply Experience Replay for continual learning. By adding only a fraction of data from the original domain, we are able to reach Word-Error-Rates (WERs) below 5\% on the new domain, while stabilizing performance for general speech recognition at acceptable WERs.
arxiv情報
著者 | Theresa Pekarek Rosin,Stefan Wermter |
発行日 | 2023-07-14 11:20:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google