MAC: A unified framework boosting low resource automatic speech recognition

要約

メタ オーディオ連結 (MAC) と呼ばれる低リソースの自動音声認識タスクの統合フレームワークを提案します。
実装は簡単で、リソースが非常に少ない環境でも実行できます。
数学的には、ベイジアン サンプリングの観点から MAC フレームワークを明確に説明します。
このフレームワークでは、新しい連結合成テキスト読み上げシステムを活用して、リソースの少ない ASR タスクを強化します。
連結合成テキスト読み上げシステムにより、言語の発音規則を統合し、TTS プロセスを調整できます。
さらに、システムを使用する際のさまざまな言語やさまざまなシーンのモデリング ニーズを満たすために、メタ オーディオ セットの幅広い概念を提案します。
広範な実験により、リソースの少ない ASR タスクに対する MAC の大きな効果が実証されています。
広東語 ASR タスク、台湾語 ASR タスク、および日本語 ASR タスクの CTC グリーディ検索、CTC プレフィックス、アテンション、およびアテンション再スコアリング デコード モードの場合、MAC メソッドは CER を 15\% 以上削減できます。
さらに、ASR タスクでは、MAC は広東語の一般的な音声データセットで wav2vec2 (微調整あり) を打ち負かし、台湾語と日本語の一般的な音声データセットで非常に競争力のある結果を得ています。
その中でも、一般的な音声広東語 ASR タスクで \textbf{10.9\%} 文字エラー率 (CER) を達成し、wav2vec2 と比較して \textbf{30\%} の相対的な改善をもたらしたことは言及する価値があります (細かい
-チューニング)。

要約(オリジナル)

We propose a unified framework for low resource automatic speech recognition tasks named meta audio concatenation (MAC). It is easy to implement and can be carried out in extremely low resource environments. Mathematically, we give a clear description of MAC framework from the perspective of bayesian sampling. In this framework, we leverage a novel concatenative synthesis text-to-speech system to boost the low resource ASR task. By the concatenative synthesis text-to-speech system, we can integrate language pronunciation rules and adjust the TTS process. Furthermore, we propose a broad notion of meta audio set to meet the modeling needs of different languages and different scenes when using the system. Extensive experiments have demonstrated the great effectiveness of MAC on low resource ASR tasks. For CTC greedy search, CTC prefix, attention, and attention rescoring decode mode in Cantonese ASR task, Taiwanese ASR task, and Japanese ASR task the MAC method can reduce the CER by more than 15\%. Furthermore, in the ASR task, MAC beats wav2vec2 (with fine-tuning) on common voice datasets of Cantonese and gets really competitive results on common voice datasets of Taiwanese and Japanese. Among them, it is worth mentioning that we achieve a \textbf{10.9\%} character error rate (CER) on the common voice Cantonese ASR task, bringing about \textbf{30\%} relative improvement compared to the wav2vec2 (with fine-tuning).

arxiv情報

著者 Zeping Min,Qian Ge,Zhong Li,Weinan E
発行日 2023-02-15 11:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク