Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition

要約

Noisy Student Training (NST) は最近、自動音声認識 (ASR) で非常に強力なパフォーマンスを示しました。
この論文では、ASR タスクの非ターゲット ドメイン データに対する NST のパフォーマンスを向上させるために、LM フィルターという名前のデータ選択戦略を提案します。
言語モデルを含む仮説と含まない仮説が生成され、それらの間の CER の差がフィルターのしきい値として利用されます。
結果は、データ フィルタリング ベースラインなしと比較して 10.4% の大幅な改善を示しています。
AISHELL-1 テスト セットで 3.31% の CER を達成できます。これは、他の教師ありデータがなくても、私たちの知識から得られる最良の結果です。
また、教師ありの 1000 時間の AISHELL-2 データセットの評価も行い、4.73% CER という競争力のある結果を達成できます。

要約(オリジナル)

Noisy Student Training (NST) has recently demonstrated extremely strong performance in Automatic Speech Recognition(ASR). In this paper, we propose a data selection strategy named LM Filter to improve the performance of NST on non-target domain data in ASR tasks. Hypotheses with and without a Language Model are generated and the CER differences between them are utilized as a filter threshold. Results reveal that significant improvements of 10.4% compared with no data filtering baselines. We can achieve 3.31% CER in AISHELL-1 test set, which is best result from our knowledge without any other supervised data. We also perform evaluations on the supervised 1000 hour AISHELL-2 dataset and competitive results of 4.73% CER can be achieved.

arxiv情報

著者 Yu Chen,Wen Ding,Junjie Lai
発行日 2023-03-01 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク