Disentanglement in a GAN for Unconditional Speech Synthesis

要約

明示的な条件付けをせずに、潜在空間から直接リアルな音声を合成できるモデルを開発できるでしょうか?
過去 10 年間にわたるいくつかの取り組みにもかかわらず、これまでの敵対的および拡散ベースのアプローチは、たとえ語彙が少ないデータセットであっても、これを達成するのに依然として苦労しています。
これに対処するために、私たちは、もつれの解けた潜在空間を学習するように調整された無条件音声合成のための敵対的生成ネットワークである AudioStyleGAN (ASGAN) を提案します。
画像合成モデルの StyleGAN ファミリに基づいて構築されている ASGAN は、サンプリングされたノイズをもつれの解けた潜在ベクトルにマッピングし、その後、信号のエイリアシングがすべてのレイヤーで抑制されるように、一連のオーディオ特徴にマッピングされます。
ASGAN のトレーニングを成功させるために、識別器の更新を確率的にスキップする適応型識別器拡張への修正を含む、いくつかの新しい技術を導入しました。
これを語彙の少ない Google Speech Commands 数字データセットに適用し、無条件音声合成で最先端の結果を実現します。
また、既存の最高性能の普及モデルよりも大幅に高速です。
ASGAN の潜在空間が解きほぐされていることを確認します。空間内の単純な線形操作を使用して、トレーニング中には見えないいくつかのタスクを実行する方法を示します。
具体的には、音声変換、音声強調、話者検証、キーワード分類などの評価を行います。
私たちの研究は、GAN が無条件音声合成の分野において依然として高い競争力を持っていること、そしてもつれの解けた潜在空間を使用して、目に見えないタスクへの一般化を支援できることを示しています。
コード、モデル、サンプル: https://github.com/RF5/simple-asgan/

要約(オリジナル)

Can we develop a model that can synthesize realistic speech directly from a latent space, without explicit conditioning? Despite several efforts over the last decade, previous adversarial and diffusion-based approaches still struggle to achieve this, even on small-vocabulary datasets. To address this, we propose AudioStyleGAN (ASGAN) — a generative adversarial network for unconditional speech synthesis tailored to learn a disentangled latent space. Building upon the StyleGAN family of image synthesis models, ASGAN maps sampled noise to a disentangled latent vector which is then mapped to a sequence of audio features so that signal aliasing is suppressed at every layer. To successfully train ASGAN, we introduce a number of new techniques, including a modification to adaptive discriminator augmentation which probabilistically skips discriminator updates. We apply it on the small-vocabulary Google Speech Commands digits dataset, where it achieves state-of-the-art results in unconditional speech synthesis. It is also substantially faster than existing top-performing diffusion models. We confirm that ASGAN’s latent space is disentangled: we demonstrate how simple linear operations in the space can be used to perform several tasks unseen during training. Specifically, we perform evaluations in voice conversion, speech enhancement, speaker verification, and keyword classification. Our work indicates that GANs are still highly competitive in the unconditional speech synthesis landscape, and that disentangled latent spaces can be used to aid generalization to unseen tasks. Code, models, samples: https://github.com/RF5/simple-asgan/

arxiv情報

著者 Matthew Baas,Herman Kamper
発行日 2024-01-25 13:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク