要約
音声認識アプリケーションでは、固有名詞などの文脈固有の珍しい単語を認識することが重要です。
Tree-constrained Pointer Generator (TCPGen) はこの目的に有望であり、プレフィックス ツリーを使用してそのような単語に効率的にバイアスをかけます。
オリジナルの TCPGen は書記素ベースのエンコーディングに依存していますが、私たちはそれを音素を意識したエンコーディングで拡張して、珍しい発音の単語をよりよく認識することを提案します。
TCPGen はバイアス単語をサブワード単位として処理するため、音素とサブワード間のアライメントを使用してサブワードレベルの音素認識エンコーディングを取得することを提案します。
さらに、モデルが音素を意識したエンコーディングをより適切に解釈できるように、CTC からの音素レベルの予測を TCPGen のクエリに挿入することを提案します。
RNN トランスデューサに対して TCPGen を使用して ASR 実験を行いました。
英語の LibriSpeech データセットと日本語の CSJ データセットの両方で、提案された音素認識エンコーディングが通常の書記素ベースのエンコーディングよりも優れたパフォーマンスを示していることが観察され、言語的に多様な言語にわたる私たちのアプローチの堅牢性が実証されました。
要約(オリジナル)
In speech recognition applications, it is important to recognize context-specific rare words, such as proper nouns. Tree-constrained Pointer Generator (TCPGen) has shown promise for this purpose, which efficiently biases such words with a prefix tree. While the original TCPGen relies on grapheme-based encoding, we propose extending it with phoneme-aware encoding to better recognize words of unusual pronunciations. As TCPGen handles biasing words as subword units, we propose obtaining subword-level phoneme-aware encoding by using alignment between phonemes and subwords. Furthermore, we propose injecting phoneme-level predictions from CTC into queries of TCPGen so that the model better interprets the phoneme-aware encodings. We conducted ASR experiments with TCPGen for RNN transducer. We observed that proposed phoneme-aware encoding outperformed ordinary grapheme-based encoding on both the English LibriSpeech and Japanese CSJ datasets, demonstrating the robustness of our approach across linguistically diverse languages.
arxiv情報
著者 | Hayato Futami,Emiru Tsunoo,Yosuke Kashiwagi,Hiroaki Ogawa,Siddhant Arora,Shinji Watanabe |
発行日 | 2023-12-15 07:37:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google