Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator

要約

敵対的弁別器でトレーニングされた敵対的生成ネットワーク (GAN) ベースのボコーダーは、高速、軽量、高品質の特性により、音声合成によく使用されます。
ただし、このデータ駆動型モデルには大量のトレーニング データが必要であり、データ収集コストが高くなります。
この事実が、限られたデータで GAN ベースのボコーダーをトレーニングする動機となります。
有望な解決策は、過剰適合を避けるためにトレーニング データを増強することです。
ただし、標準の識別器は無条件であり、データの増強によって引き起こされる分布の変化の影響を受けません。
したがって、拡張された音声(これは異常である可能性があります)は、実際の音声とみなされる可能性があります。
この問題に対処するために、音声に加えて拡張状態を入力として受け取る拡張条件付き​​識別器 (AugCondD) を提案します。これにより、元の非拡張分布の学習を阻害することなく、拡張状態に従って入力音声を評価します。
実験結果は、AugCondD が限られたデータ条件下で音声品質を向上させ、十分なデータ条件下では同等の音声品質を達成することを示しています。
音声サンプルは https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/augcondd/ から入手できます。

要約(オリジナル)

A generative adversarial network (GAN)-based vocoder trained with an adversarial discriminator is commonly used for speech synthesis because of its fast, lightweight, and high-quality characteristics. However, this data-driven model requires a large amount of training data incurring high data-collection costs. This fact motivates us to train a GAN-based vocoder on limited data. A promising solution is to augment the training data to avoid overfitting. However, a standard discriminator is unconditional and insensitive to distributional changes caused by data augmentation. Thus, augmented speech (which can be extraordinary) may be considered real speech. To address this issue, we propose an augmentation-conditional discriminator (AugCondD) that receives the augmentation state as input in addition to speech, thereby assessing the input speech according to the augmentation state, without inhibiting the learning of the original non-augmented distribution. Experimental results indicate that AugCondD improves speech quality under limited data conditions while achieving comparable speech quality under sufficient data conditions. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/augcondd/.

arxiv情報

著者 Takuhiro Kaneko,Hirokazu Kameoka,Kou Tanaka
発行日 2024-03-25 06:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク