N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets

要約

固有名詞や専門用語の正確な書き起こしは、ビジネス会話の音声テキスト化アプリケーションにおいて特に重要である。これらの単語は会話を理解する上で不可欠であるが、希少であることが多いため、テキストや音声の学習データには十分に含まれていない可能性が高く、この分野では重要な課題となっている。我々は、単一トークンだけでなく、正規化された単グラムやn-gramに対してうまく機能する2段階のキーワードブースティングメカニズムを提示し、生のターゲットをブーストする際のミッシングヒットの問題を排除する。さらに、ブースティングの重みロジックを調整することで、マルチトークンキーワードのオーバーブーストを回避する方法を示す。これにより、弊社独自のドメイン内データセットでは26%、LibriSpeechでは2%のキーワード認識率の向上が見られた。この方法は、非アルファベット文字を含む、あるいは非標準的な発音を持つターゲットに対して特に有効である。

要約(オリジナル)

Accurate transcription of proper names and technical terms is particularly important in speech-to-text applications for business conversations. These words, which are essential to understanding the conversation, are often rare and therefore likely to be under-represented in text and audio training data, creating a significant challenge in this domain. We present a two-step keyword boosting mechanism that successfully works on normalized unigrams and n-grams rather than just single tokens, which eliminates missing hits issues with boosting raw targets. In addition, we show how adjusting the boosting weight logic avoids over-boosting multi-token keywords. This improves our keyword recognition rate by 26% relative on our proprietary in-domain dataset and 2% on LibriSpeech. This method is particularly useful on targets that involve non-alphabetic characters or have non-standard pronunciations.

arxiv情報

著者 Wang Yau Li,Shreekantha Nadig,Karol Chang,Zafarullah Mahmood,Riqiang Wang,Simon Vandieken,Jonas Robertson,Fred Mailhot
発行日 2023-08-04 00:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク