要約
自動音声認識 (ASR) およびテキスト読み上げ (TTS) のフロントエンドの主要コンポーネントとして、書記素から音素 (G2P) は、文字を対応する発音に変換する役割を果たします。
既存の方法はパフォーマンスが遅いか貧弱であり、アプリケーション シナリオ、特にデバイス上の推論のプロセスに制限があります。
この論文では、専門家の知識とコネクショニストの時間的分類 (CTC) ベースのニューラル ネットワークの両方の利点を統合し、高速、軽量、理論的に並列な LiteG2P という名前の新しい方法を提案します。
慎重に設計された LiteG2P は、クラウドとデバイスの両方に適用できます。
CMU データセットに関する実験結果は、提案された方法のパフォーマンスが、10 分の 1 のパラメーターを使用する最先端の CTC ベースの方法よりも優れており、最先端の Transformer ベースのシーケンスにさえ匹敵することを示しています。
パラメーターが少なく、計算量が 33 分の 1 のシーケンス モデルへの変換。
要約(オリジナル)
As a key component of automated speech recognition (ASR) and the front-end in text-to-speech (TTS), grapheme-to-phoneme (G2P) plays the role of converting letters to their corresponding pronunciations. Existing methods are either slow or poor in performance, and are limited in application scenarios, particularly in the process of on-device inference. In this paper, we integrate the advantages of both expert knowledge and connectionist temporal classification (CTC) based neural network and propose a novel method named LiteG2P which is fast, light and theoretically parallel. With the carefully leading design, LiteG2P can be applied both on cloud and on device. Experimental results on the CMU dataset show that the performance of the proposed method is superior to the state-of-the-art CTC based method with 10 times fewer parameters, and even comparable to the state-of-the-art Transformer-based sequence-to-sequence model with less parameters and 33 times less computation.
arxiv情報
| 著者 | Chunfeng Wang,Peisong Huang,Yuxiang Zou,Haoyu Zhang,Shichao Liu,Xiang Yin,Zejun Ma |
| 発行日 | 2023-03-02 09:16:21+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google