A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

要約

非標識データセットのみでASRパフォーマンスを強化する自己強化フレームワークを提案します。
このプロセスは、発表されていない音声で擬似ラベルを生成する既存のASRモデルから始まり、その後、高忠実度のテキストからスピーチ（TTS）システムをトレーニングするために使用されます。
次に、合成された音声テキストペアが元のASRシステムにブートストラップされ、閉ループの自己改善サイクルが完了します。
私たちは、台湾のマンダリンのスピーチに対するフレームワークの有効性を実証しました。
6,000時間の非標識音声、中程度の量のテキストデータ、AIモデルの合成コンテンツを活用して、Whisper-Large-V2を専門モデルのTwisterに適応させます。
Twisterは、ささやきと比較して、マンダリンでエラー率を最大20％、マンダリンと英語のコードスイッチングベンチマークで50％削減します。
結果は、擬似labりの自己潜水アプローチの説得力のある代替としてのフレームワークを強調し、低リソースまたはドメイン固有の設定でASRパフォーマンスを改善するための実用的な経路を提供します。

要約(オリジナル)

We propose a self-refining framework that enhances ASR performance with only unlabeled datasets. The process starts with an existing ASR model generating pseudo-labels on unannotated speech, which are then used to train a high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs are bootstrapped into the original ASR system, completing the closed-loop self-improvement cycle. We demonstrated the effectiveness of the framework on Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a moderate amount of text data, and synthetic content from the AI models, we adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching benchmarks compared to Whisper. Results highlight the framework as a compelling alternative to pseudo-labeling self-distillation approaches and provides a practical pathway for improving ASR performance in low-resource or domain-specific settings.

arxiv情報

著者	Cheng-Kang Chou,Chan-Jan Hsu,Ho-Lam Chung,Liang-Hsuan Tseng,Hsi-Chun Cheng,Yu-Kuan Fu,Kuan Po Huang,Hung-Yi Lee
発行日	2025-06-16 15:47:41+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー