要約
Noisy Student Training (NST) は最近、自動音声認識 (ASR) で非常に強力なパフォーマンスを示しました。
この論文では、ASR タスクの非ターゲット ドメイン データに対する NST のパフォーマンスを向上させるために、LM フィルターという名前のデータ選択戦略を提案します。
言語モデルを含む仮説と含まない仮説が生成され、それらの間の CER の差がフィルターのしきい値として利用されます。
結果は、データ フィルタリング ベースラインなしと比較して 10.4% の大幅な改善を示しています。
AISHELL-1 テスト セットで 3.31% の CER を達成できます。これは、他の教師ありデータがなくても、私たちの知識から得られる最良の結果です。
また、教師ありの 1000 時間の AISHELL-2 データセットの評価も行い、4.73% CER という競争力のある結果を達成できます。
要約(オリジナル)
Noisy Student Training (NST) has recently demonstrated extremely strong performance in Automatic Speech Recognition(ASR). In this paper, we propose a data selection strategy named LM Filter to improve the performance of NST on non-target domain data in ASR tasks. Hypotheses with and without a Language Model are generated and the CER differences between them are utilized as a filter threshold. Results reveal that significant improvements of 10.4% compared with no data filtering baselines. We can achieve 3.31% CER in AISHELL-1 test set, which is best result from our knowledge without any other supervised data. We also perform evaluations on the supervised 1000 hour AISHELL-2 dataset and competitive results of 4.73% CER can be achieved.
arxiv情報
著者 | Yu Chen,Wen Ding,Junjie Lai |
発行日 | 2023-03-01 17:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google