要約
近年、トランスフォーマーなどの深層学習アーキテクチャの進歩により、エンドツーエンド (E2E) 自動音声認識 (ASR) モデルの進化は目覚ましいものがあります。
研究者らは、E2E システムに加えて、音素ベースのモデルを使用して E2E モデルの N ベスト仮説を再スコアリングすることにより、大幅な精度の向上を達成しました。
これは、システムの組み合わせ効果以外に改善がどこから来るのかという興味深い疑問を引き起こします。
私たちは、これらの利益を生み出す根本的なメカニズムを調査し、E2E モデルが多様なモデリング ユニットと共同でトレーニングされる効率的な共同トレーニング アプローチを提案します。
この方法論は、音素ベースのモデルと書記素ベースのモデルの両方の長所を調整するだけでなく、これらの多様なモデリング ユニットを相乗的に使用することでモデルの精度を大幅に向上できることも明らかにします。
私たちの調査結果は、より堅牢で正確な ASR システムの開発における異種モデリング ユニットの最適な統合に関する新たな洞察を提供します。
要約(オリジナル)
In recent years, the evolution of end-to-end (E2E) automatic speech recognition (ASR) models has been remarkable, largely due to advances in deep learning architectures like transformer. On top of E2E systems, researchers have achieved substantial accuracy improvement by rescoring E2E model’s N-best hypotheses with a phoneme-based model. This raises an interesting question about where the improvements come from other than the system combination effect. We examine the underlying mechanisms driving these gains and propose an efficient joint training approach, where E2E models are trained jointly with diverse modeling units. This methodology does not only align the strengths of both phoneme and grapheme-based models but also reveals that using these diverse modeling units in a synergistic way can significantly enhance model accuracy. Our findings offer new insights into the optimal integration of heterogeneous modeling units in the development of more robust and accurate ASR systems.
arxiv情報
著者 | Shiyi Han,Zhihong Lei,Mingbin Xu,Xingyu Na,Zhen Huang |
発行日 | 2024-06-11 15:03:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google