要約
タイトル:Multilingual Word Error Rate Estimation: e-WER3(多言語音声認識におけるe-WER3による誤り率の推定)
要約:
– 多言語自動音声認識システムの成功により、多くの音声制御アプリケーションが実現されたが、これらのシステムの性能測定は、モノリンガル・マルチリンガルの両方で手動変換された音声データに依存するため大きな課題である。
– 本論文では、音響的なレプレゼンテーションと語彙的なレプレゼンテーションを共同で学習することで単語誤り率を推定する、新たな多言語フレームワークであるeWER3を提案する。
– eWER3がASRの内部状態を使用しないでWORを予測し、近い言語の性能を向上させるための多言語共有潜在空間を使用することができることを示す。
– eWER3は、先行研究の単言語誤り率推定方法(eWER2)よりも、ピアソン相関係数(PCC)において絶対値9%の向上と、予測されたWERと参照WERの全体的な推定で優れた性能を示した。
要約(オリジナル)
The success of the multilingual automatic speech recognition systems empowered many voice-driven applications. However, measuring the performance of such systems remains a major challenge, due to its dependency on manually transcribed speech data in both mono- and multilingual scenarios. In this paper, we propose a novel multilingual framework — eWER3 — jointly trained on acoustic and lexical representation to estimate word error rate. We demonstrate the effectiveness of eWER3 to (i) predict WER without using any internal states from the ASR and (ii) use the multilingual shared latent space to push the performance of the close-related languages. We show our proposed multilingual model outperforms the previous monolingual word error rate estimation method (eWER2) by an absolute 9\% increase in Pearson correlation coefficient (PCC), with better overall estimation between the predicted and reference WER.
arxiv情報
| 著者 | Shammur Absar Chowdhury,Ahmed Ali |
| 発行日 | 2023-04-02 23:08:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI