Personalization for BERT-based Discriminative Speech Recognition Rescoring

要約

パーソナライズされたコンテンツの認識は、エンドツーエンドの音声認識において依然として課題です。
私たちは、ニューラル スコアリング ステップでパーソナライズされたコンテンツを使用して認識を向上させる 3 つの新しいアプローチ、つまり、地名辞典、プロンプト、およびクロスアテンション ベースのエンコーダー デコーダー モデルを検討します。
これらのアプローチを比較するために、パーソナライズされた名前付きエンティティを追加した仮想音声アシスタントとの対話から得た内部の匿名化された en-US データを使用します。
パーソナライズされた名前付きエンティティを含むテスト セットでは、これらのアプローチのそれぞれが、ニューラル スコアリング ベースラインと比較して単語誤り率を 10% 以上改善することを示します。
また、このテスト セットでは、自然言語プロンプトにより、トレーニングなしで、一般化でわずかな損失が発生するだけで、単語の誤り率が 7% 改善できることも示しています。
全体として、地名辞典は単語誤り率 (WER) を 10% 改善し、最も優れたパフォーマンスを示し、一般的なテスト セットの WER も 1% 改善することがわかりました。

要約(オリジナル)

Recognition of personalized content remains a challenge in end-to-end speech recognition. We explore three novel approaches that use personalized content in a neural rescoring step to improve recognition: gazetteers, prompting, and a cross-attention based encoder-decoder model. We use internal de-identified en-US data from interactions with a virtual voice assistant supplemented with personalized named entities to compare these approaches. On a test set with personalized named entities, we show that each of these approaches improves word error rate by over 10%, against a neural rescoring baseline. We also show that on this test set, natural language prompts can improve word error rate by 7% without any training and with a marginal loss in generalization. Overall, gazetteers were found to perform the best with a 10% improvement in word error rate (WER), while also improving WER on a general test set by 1%.

arxiv情報

著者 Jari Kolehmainen,Yile Gu,Aditya Gourav,Prashanth Gurunath Shivakumar,Ankur Gandhe,Ariya Rastrow,Ivan Bulyko
発行日 2023-07-13 15:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク