要約
このペーパーでは、開発コストと時間を最小限に抑えながら、KWS (キーワード スポッティング) タスクに TTS 合成トレーニング データを使用する方法を検討します。
キーワード スポッティング モデルを正確にするには大量のトレーニング データが必要であり、そのようなトレーニング データの取得にはコストがかかる場合があります。
現在の最先端技術では、TTS モデルは自然な響きのデータを大量に生成できるため、KWS モデル開発のコストと時間を削減できます。
それでも、TTS で生成されたデータは、実際のデータと比べて多様性に欠ける可能性があります。
限られたリソースと現在の TTS 機能の制約の下で KWS モデルの精度を最大化することを追求するために、実際のデータの使用を最小限に抑え、TTS 出力の多様性を最大化することに焦点を当てて、TTS データと実際の人間の音声データを混合するためのさまざまな戦略を検討しました。
私たちの実験結果は、話者多様性のある比較的少量の実際の音声データ (100 人の話者、2,000 の発話) と大量の TTS 合成データが、ベースライン (ベースラインの 3 倍の誤り率以内) と比較して、かなり高い精度を達成できることを示しています。
380 万件の実際のポジティブな発言)。
要約(オリジナル)
This paper explores the use of TTS synthesized training data for KWS (keyword spotting) task while minimizing development cost and time. Keyword spotting models require a huge amount of training data to be accurate, and obtaining such training data can be costly. In the current state of the art, TTS models can generate large amounts of natural-sounding data, which can help reducing cost and time for KWS model development. Still, TTS generated data can be lacking diversity compared to real data. To pursue maximizing KWS model accuracy under the constraint of limited resources and current TTS capability, we explored various strategies to mix TTS data and real human speech data, with a focus on minimizing real data use and maximizing diversity of TTS output. Our experimental results indicate that relatively small amounts of real audio data with speaker diversity (100 speakers, 2k utterances) and large amounts of TTS synthesized data can achieve reasonably high accuracy (within 3x error rate of baseline), compared to the baseline (trained with 3.8M real positive utterances).
arxiv情報
著者 | Hyun Jin Park,Dhruuv Agarwal,Neng Chen,Rentao Sun,Kurt Partridge,Justin Chen,Harry Zhang,Pai Zhu,Jacob Bartel,Kyle Kastner,Gary Wang,Andrew Rosenberg,Quan Wang |
発行日 | 2024-07-26 17:24:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google