Alternate Intermediate Conditioning with Syllable-level and Character-level Targets for Japanese ASR

要約

エンドツーエンドの自動音声認識により、入力音声が文字に直接マッピングされます。
ただし、複数の異なる発音を 1 つの文字にマップする必要がある場合、または 1 つの発音が多くの異なる文字間で共有される場合、マッピングは問題になる可能性があります。
日本語の ASR は、日本語の漢字による多対 1 および 1 対多のマッピングの問題に最も悩まされています。
問題を軽減するために、自己条件付きコネクショニスト時間分類 (CTC) を使用して、文字と音節間の明示的な相互作用を導入します。この場合、上位層は下位層からの中間予測で「自己調整」されます。
提案手法では、文字レベルと音節レベルの中間予測を条件付け機能として利用し、文字と音節間の相互依存性を処理します。
Spontaneous Japanese コーパスの実験結果は、提案された方法が従来のマルチタスクおよび自己条件付き CTC 方法よりも優れていることを示しています。

要約(オリジナル)

End-to-end automatic speech recognition directly maps input speech to characters. However, the mapping can be problematic when several different pronunciations should be mapped into one character or when one pronunciation is shared among many different characters. Japanese ASR suffers the most from such many-to-one and one-to-many mapping problems due to Japanese kanji characters. To alleviate the problems, we introduce explicit interaction between characters and syllables using Self-conditioned connectionist temporal classification (CTC), in which the upper layers are “self-conditioned” on the intermediate predictions from the lower layers. The proposed method utilizes character-level and syllable-level intermediate predictions as conditioning features to deal with mutual dependency between characters and syllables. Experimental results on Corpus of Spontaneous Japanese show that the proposed method outperformed the conventional multi-task and Self-conditioned CTC methods.

arxiv情報

著者 Yusuke Fujita,Tatsuya Komatsu,Yusuke Kida
発行日 2023-03-13 01:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク