要約
自動音声認識 (ASR) 仮説において認識された各トークン (単語、サブワード、文字など) の信頼性を推定し、誤って認識されたトークンを検出する信頼性推定は、ASR アプリケーションを開発するための重要な機能です。
この研究では、エンドツーエンド (E2E) ASR 仮説の信頼度推定を実行します。
最近の E2E ASR システムは、さまざまな ASR タスクに対して高いパフォーマンス (たとえば、約 5% のトークン エラー率) を示します。
このような状況では、ほとんど正しいトークン シーケンスからまれに不正確なトークンを検出する必要があるため、信頼度の推定が困難になります。
この不均衡なデータセットの問題に取り組むために、クラス バランシング目標でトレーニングされた強力なバイナリ クラス (正解/不正解) シーケンス ラベラーとして、双方向長短期記憶 (BLSTM) ベースのモデルを採用します。
数種類の ASR 復号スコアを補助特徴として利用することで、モデルが不均衡の激しい設定下でも安定して高い信頼度の推定性能を示すことを実験的に確認しました。
また、BLSTM ベースのモデルが、不正確なトークンを大幅に過小評価する Transformer ベースの信頼推定モデルよりも優れていることも確認しました。
要約(オリジナル)
Confidence estimation, in which we estimate the reliability of each recognized token (e.g., word, sub-word, and character) in automatic speech recognition (ASR) hypotheses and detect incorrectly recognized tokens, is an important function for developing ASR applications. In this study, we perform confidence estimation for end-to-end (E2E) ASR hypotheses. Recent E2E ASR systems show high performance (e.g., around 5% token error rates) for various ASR tasks. In such situations, confidence estimation becomes difficult since we need to detect infrequent incorrect tokens from mostly correct token sequences. To tackle this imbalanced dataset problem, we employ a bidirectional long short-term memory (BLSTM)-based model as a strong binary-class (correct/incorrect) sequence labeler that is trained with a class balancing objective. We experimentally confirmed that, by utilizing several types of ASR decoding scores as its auxiliary features, the model steadily shows high confidence estimation performance under highly imbalanced settings. We also confirmed that the BLSTM-based model outperforms Transformer-based confidence estimation models, which greatly underestimate incorrect tokens.
arxiv情報
著者 | Atsunori Ogawa,Naohiro Tawara,Takatomo Kano,Marc Delcroix |
発行日 | 2023-12-22 11:12:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google