An efficient text augmentation approach for contextualized Mandarin speech recognition

要約

文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識を向上させるためによく使用されますが、その有効性は、音声テキスト データの利用可能性に固有の制限によって妨げられます。
この課題に対処するために、私たちの研究では、計算コストを最小限に抑えながら、広範なテキストのみのデータセットを活用し、直接的なテキスト拡張 (TA) 技術を使用して事前トレーニングされた ASR モデルをコンテキスト化することを提案しています。
特に、事前トレーニングされた CIF ベースの ASR をコンテキスト化するために、限られた音声テキスト データを使用してコードブックを構築します。
単純なコードブック検索プロセスを利用することで、利用可能なテキストのみのデータを潜在的なテキスト埋め込みに変換します。
これらの埋め込みにより、コンテキスト化された ASR の入力が強化されます。
多様な中国語テスト セットでの実験により、TA アプローチが認識パフォーマンスを大幅に向上させることが実証されました。
最高のパフォーマンスを誇るシステムでは、相対的な CER が、まれな単語で最大 30%、一般的なすべての単語で 15% 改善されています。

要約(オリジナル)

Although contextualized automatic speech recognition (ASR) systems are commonly used to improve the recognition of uncommon words, their effectiveness is hindered by the inherent limitations of speech-text data availability. To address this challenge, our study proposes to leverage extensive text-only datasets and contextualize pre-trained ASR models using a straightforward text-augmentation (TA) technique, all while keeping computational costs minimal. In particular, to contextualize a pre-trained CIF-based ASR, we construct a codebook using limited speech-text data. By utilizing a simple codebook lookup process, we convert available text-only data into latent text embeddings. These embeddings then enhance the inputs for the contextualized ASR. Our experiments on diverse Mandarin test sets demonstrate that our TA approach significantly boosts recognition performance. The top-performing system shows relative CER improvements of up to 30% on rare words and 15% across all words in general.

arxiv情報

著者 Naijun Zheng,Xucheng Wan,Kai Liu,Ziqing Du,Zhou Huan
発行日 2024-06-14 11:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク