要約
非標識データセットのみでASRパフォーマンスを強化する自己強化フレームワークを提案します。
このプロセスは、発表されていない音声で擬似ラベルを生成する既存のASRモデルから始まり、その後、高忠実度のテキストからスピーチ(TTS)システムをトレーニングするために使用されます。
次に、合成された音声テキストペアが元のASRシステムにブートストラップされ、閉ループの自己改善サイクルが完了します。
私たちは、台湾のマンダリンのスピーチに対するフレームワークの有効性を実証しました。
6,000時間の非標識音声、中程度の量のテキストデータ、AIモデルの合成コンテンツを活用して、Whisper-Large-V2を専門モデルのTwisterに適応させます。
Twisterは、ささやきと比較して、マンダリンでエラー率を最大20%、マンダリンと英語のコードスイッチングベンチマークで50%削減します。
結果は、擬似labりの自己潜水アプローチの説得力のある代替としてのフレームワークを強調し、低リソースまたはドメイン固有の設定でASRパフォーマンスを改善するための実用的な経路を提供します。
要約(オリジナル)
We propose a self-refining framework that enhances ASR performance with only unlabeled datasets. The process starts with an existing ASR model generating pseudo-labels on unannotated speech, which are then used to train a high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs are bootstrapped into the original ASR system, completing the closed-loop self-improvement cycle. We demonstrated the effectiveness of the framework on Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a moderate amount of text data, and synthetic content from the AI models, we adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching benchmarks compared to Whisper. Results highlight the framework as a compelling alternative to pseudo-labeling self-distillation approaches and provides a practical pathway for improving ASR performance in low-resource or domain-specific settings.
arxiv情報
著者 | Cheng-Kang Chou,Chan-Jan Hsu,Ho-Lam Chung,Liang-Hsuan Tseng,Hsi-Chun Cheng,Yu-Kuan Fu,Kuan Po Huang,Hung-Yi Lee |
発行日 | 2025-06-16 15:47:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google