Timestamped Embedding-Matching Acoustic-to-Word CTC ASR


この研究では、多くの実世界のアプリケーションで必要とされる単語の開始時刻と継続時間を直接生成するように、埋め込みマッチング単語レベルのコネクショニスト時間分類 (CTC) 自動音声認識装置 (ASR) をトレーニングする新しい方法について説明します。
単語のタイムスタンプを使用すると、ASR は、テスト時に二次モデルや強制的な位置合わせプロセスに依存せずに、単語のセグメンテーションと単語の混同ネットワークを出力できます。
私たちが提案するシステムは、ハイブリッド DNN-HMM (ディープ ニューラル ネットワーク-隠れマルコフ モデル) システムと同様の単語分割精度を備えており、TIMIT データの単語開始時間の平均絶対誤差の差は 3 ミリ秒未満です。
同時に、同じ音声トレーニング データとほぼ同じモデル サイズを使用した場合、タイムスタンプなしのシステムと比較して単語誤り率の相対的な増加が 5% 未満であることが観察されました。
また、複数の仮説の埋め込みマッチング ASR 全般のより厳密な分析にも貢献します。


In this work, we describe a novel method of training an embedding-matching word-level connectionist temporal classification (CTC) automatic speech recognizer (ASR) such that it directly produces word start times and durations, required by many real-world applications, in addition to the transcription. The word timestamps enable the ASR to output word segmentations and word confusion networks without relying on a secondary model or forced alignment process when testing. Our proposed system has similar word segmentation accuracy as a hybrid DNN-HMM (Deep Neural Network-Hidden Markov Model) system, with less than 3ms difference in mean absolute error in word start times on TIMIT data. At the same time, we observed less than 5% relative increase in the word error rate compared to the non-timestamped system when using the same audio training data and nearly identical model size. We also contribute more rigorous analysis of multiple-hypothesis embedding-matching ASR in general.


著者 Woojay Jeon
発行日 2023-06-20 11:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク