要約
ジェネレーティブ ディープ ニューラル ネットワークは音声合成に広く使用されていますが、既存のモデルのほとんどは波形またはスペクトル出力を直接生成します。
しかし、人間は調音器を制御することで発話を行い、音の伝播の物理的特性を通じて発話音を生成します。
Articulatory Generator を Generative Adversarial Network パラダイム (音声生成/合成の新しい教師なし生成モデル) に紹介します。
Articulatory Generator は、調音表現 (電磁アーティキュログラフィーまたは EMA) を完全に教師なしで生成することを学習することにより、人間の音声生成をより厳密に模倣します。
次に、別の事前トレーニング済みの物理モデル (ema2wav) が、生成された EMA 表現を音声波形に変換し、評価のために Discriminator に送信します。
調音分析は、ネットワークが音声生成中に人間と同様の方法で調音器を制御することを学習することを示唆しています。
出力の音響分析は、ネットワークがトレーニング分布に存在する単語と存在しない単語の両方を生成することを学習することを示唆しています。
さらに、一般的な人間の言語と音声技術の認知モデルに対する調音表現の意味についても説明します。
要約(オリジナル)
Generative deep neural networks are widely used for speech synthesis, but most existing models directly generate waveforms or spectral outputs. Humans, however, produce speech by controlling articulators, which results in the production of speech sounds through physical properties of sound propagation. We introduce the Articulatory Generator to the Generative Adversarial Network paradigm, a new unsupervised generative model of speech production/synthesis. The Articulatory Generator more closely mimics human speech production by learning to generate articulatory representations (electromagnetic articulography or EMA) in a fully unsupervised manner. A separate pre-trained physical model (ema2wav) then transforms the generated EMA representations to speech waveforms, which get sent to the Discriminator for evaluation. Articulatory analysis suggests that the network learns to control articulators in a similar manner to humans during speech production. Acoustic analysis of the outputs suggests that the network learns to generate words that are both present and absent in the training distribution. We additionally discuss implications of articulatory representations for cognitive models of human language and speech technology in general.
arxiv情報
著者 | Gašper Beguš,Alan Zhou,Peter Wu,Gopala K Anumanchipalli |
発行日 | 2023-03-12 20:28:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google