Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction

要約

エンドツーエンド(E2E)自動音声認識(ASR)モデルは、高品質のグラウンドトゥルースデータには人間の注釈が必要なため、取得に費用がかかるペアのオーディオテキストサンプルを使用してトレーニングされます。
デジタルメディアプレーヤーなどの音声検索アプリケーションは、ASRを活用して、ユーザーが画面上のキーボードではなく音声で検索できるようにします。
ただし、E2E ASRシステムのトレーニングデータでは、最近またはまれな映画タイトルが十分に表されない可能性があるため、認識が不十分である可能性があります。
この論文では、(a)E2Eシステムでは考慮されない音声代替品を生成するASRモデルの出力に基づく音声検索と、(b)ASRモデルの認識と音響の代替物を組み合わせて最終システムの出力を選択する音声検索で構成される音声修正システムを提案します。
私たちのアプローチは、一連の競争のベースラインで、人気のある映画タイトルのベンチマークで4.4〜7.6%の間の単語エラー率を改善することがわかります。

要約(オリジナル)

End-to-end (E2E) Automatic Speech Recognition (ASR) models are trained using paired audio-text samples that are expensive to obtain, since high-quality ground-truth data requires human annotators. Voice search applications, such as digital media players, leverage ASR to allow users to search by voice as opposed to an on-screen keyboard. However, recent or infrequent movie titles may not be sufficiently represented in the E2E ASR system’s training data, and hence, may suffer poor recognition. In this paper, we propose a phonetic correction system that consists of (a) a phonetic search based on the ASR model’s output that generates phonetic alternatives that may not be considered by the E2E system, and (b) a rescorer component that combines the ASR model recognition and the phonetic alternatives, and select a final system output. We find that our approach improves word error rate between 4.4 and 7.6% relative on benchmarks of popular movie titles over a series of competitive baselines.

arxiv情報

著者 Christophe Van Gysel,Maggie Wu,Lyan Verwimp,Caglar Tirkaz,Marco Bertola,Zhihong Lei,Youssef Oualil
発行日 2025-06-06 14:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク