要約
事前トレーニングされた自動音声認識 (ASR) システムは、一致したドメインでは優れたパフォーマンスを発揮しますが、目に見えない録音環境や条件に起因するチャネルの不一致に直面すると、パフォーマンスが低下することがよくあります。
この問題を軽減するために、我々は堅牢な ASR トレーニングのための新しいチャネル認識データ シミュレーション方法を提案します。
私たちの手法は、チャネル抽出技術と敵対的生成ネットワーク (GAN) の相乗力を利用します。
まず、任意のオーディオからエンベディングを抽出できるチャネル エンコーダーをトレーニングします。
これに加えて、最小限の量のターゲット ドメイン データを使用してチャネル エンベディングが抽出され、GAN ベースの音声合成装置のガイドに使用されます。
このシンセサイザーは、ターゲット ドメインのチャネル特性を模倣しながら、入力の音声コンテンツを忠実に保存する音声を生成します。
我々は、難易度の高い客家全台湾 (HAT) および台湾全土 (TAT) コーパスでこの手法を評価し、ベースラインと比較して、それぞれ 20.02% と 9.64% の相対文字誤り率 (CER) の削減を達成しました。
これらの結果は、ソース領域とターゲット領域の音響間のギャップを埋めるためのチャネル認識データ シミュレーション手法の有効性を強調しています。
要約(オリジナル)
While pre-trained automatic speech recognition (ASR) systems demonstrate impressive performance on matched domains, their performance often degrades when confronted with channel mismatch stemming from unseen recording environments and conditions. To mitigate this issue, we propose a novel channel-aware data simulation method for robust ASR training. Our method harnesses the synergistic power of channel-extractive techniques and generative adversarial networks (GANs). We first train a channel encoder capable of extracting embeddings from arbitrary audio. On top of this, channel embeddings are extracted using a minimal amount of target-domain data and used to guide a GAN-based speech synthesizer. This synthesizer generates speech that faithfully preserves the phonetic content of the input while mimicking the channel characteristics of the target domain. We evaluate our method on the challenging Hakka Across Taiwan (HAT) and Taiwanese Across Taiwan (TAT) corpora, achieving relative character error rate (CER) reductions of 20.02% and 9.64%, respectively, compared to the baselines. These results highlight the efficacy of our channel-aware data simulation method for bridging the gap between source- and target-domain acoustics.
arxiv情報
| 著者 | Chien-Chun Wang,Li-Wei Chen,Cheng-Kang Chou,Hung-Shin Lee,Berlin Chen,Hsin-Min Wang | 
| 発行日 | 2025-01-08 05:57:28+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
