O-1: Self-training with Oracle and 1-best Hypothesis

要約

トレーニングのバイアスを軽減し、音声認識のトレーニングと評価の指標を統合するための新しい自己トレーニング目標である O-1 を紹介します。
O-1 は、Expected Minimum Bayes Risk (EMBR) のより高速なバリアントであり、オラクル仮説を強化し、教師ありデータと教師なしデータの両方に対応できます。
私たちは、公開されている SpeechStew データセットと大規模な社内データセットでの認識という観点から、アプローチの有効性を実証します。
Speechstew では、O-1 目標は実際のパフォーマンスとオラクルのパフォーマンスの間のギャップを相対的に 80\% 縮めますが、EMBR ではギャップを相対的に 43\% 埋めます。
O-1 は、SpeechStew が構成するさまざまなデータセットで EMBR と比較して 13\% ~ 25\% の相対的な改善を達成し、社内データセットでの EMBR トレーニングと比較して Oracle WER に関して 12\% の相対的なギャップの削減を達成しました。
全体として、O-1 は EMBR と比較して WER で 9\% の相対的な改善をもたらし、これにより、大規模なデータセットに対して提案された目標のスケーラビリティがわかります。

要約(オリジナル)

We introduce O-1, a new self-training objective to reduce training bias and unify training and evaluation metrics for speech recognition. O-1 is a faster variant of Expected Minimum Bayes Risk (EMBR), that boosts the oracle hypothesis and can accommodate both supervised and unsupervised data. We demonstrate the effectiveness of our approach in terms of recognition on publicly available SpeechStew datasets and a large-scale, in-house data set. On Speechstew, the O-1 objective closes the gap between the actual and oracle performance by 80\% relative compared to EMBR which bridges the gap by 43\% relative. O-1 achieves 13\% to 25\% relative improvement over EMBR on the various datasets that SpeechStew comprises of, and a 12\% relative gap reduction with respect to the oracle WER over EMBR training on the in-house dataset. Overall, O-1 results in a 9\% relative improvement in WER over EMBR, thereby speaking to the scalability of the proposed objective for large-scale datasets.

arxiv情報

著者 Murali Karthick Baskar,Andrew Rosenberg,Bhuvana Ramabhadran,Kartik Audhkhasi
発行日 2023-08-14 22:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク