要約
ヒンディー語やタミル語などのリソースが少ない言語の公開されている TTS データセットには、通常 10 ~ 20 時間のデータが含まれており、語彙の網羅性が不十分になります。
この制限は、ドメイン固有の語彙と英語とのコード混合が頻繁に行われるため、多数の OOV 単語が発生するダウンストリーム アプリケーションで明らかになります。
この問題を強調するために、いくつかの実世界のアプリケーションからの OOV ワードを含むベンチマークを作成します。
実際、明瞭度テストで示されているように、最先端のヒンディー語とタミル語の TTS システムは、この OOV ベンチマークでのパフォーマンスが低いことがわかります。
モデルの OOV パフォーマンスを向上させるために、より多くのトレーニング データを取得するための、労力が少なく経済的に実行可能な戦略を提案します。
具体的には、高品質の声優ではなくボランティアを使用して、トレーニング データには見られない文字バイグラムを含む単語を録音することを提案します。
このような安価なデータを使用すると、音声品質やドメイン内のパフォーマンスに影響を与えずに、OOV ワードでのモデルのパフォーマンスが向上することを示します。
要約(オリジナル)
Publicly available TTS datasets for low-resource languages like Hindi and Tamil typically contain 10-20 hours of data, leading to poor vocabulary coverage. This limitation becomes evident in downstream applications where domain-specific vocabulary coupled with frequent code-mixing with English, results in many OOV words. To highlight this problem, we create a benchmark containing OOV words from several real-world applications. Indeed, state-of-the-art Hindi and Tamil TTS systems perform poorly on this OOV benchmark, as indicated by intelligibility tests. To improve the model’s OOV performance, we propose a low-effort and economically viable strategy to obtain more training data. Specifically, we propose using volunteers as opposed to high quality voice artists to record words containing character bigrams unseen in the training data. We show that using such inexpensive data, the model’s performance improves on OOV words, while not affecting voice quality and in-domain performance.
arxiv情報
著者 | Srija Anand,Praveen Srinivasa Varadhan,Ashwin Sankar,Giri Raju,Mitesh M. Khapra |
発行日 | 2024-07-18 12:03:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google