要約
近年、大規模な事前トレーニング済み音声言語モデル (SLM) により、テキスト音声合成、音声変換、音声強調など、さまざまな生成音声モデリング アプリケーションにおいて目覚ましい進歩が実証されています。
これらのアプリケーションには通常、テキストまたは音声入力を事前トレーニングされた SLM 表現にマッピングし、そこからターゲット音声をデコードすることが含まれます。
このペーパーでは、敵対的生成ネットワーク (GAN) フレームワーク内の識別タスク、特に音声変換に SLM 表現を活用するための新しいアプローチである SLMGAN を紹介します。
StarGANv2-VC を基盤として、メル ベースの弁別器の上に新しい SLM ベースの WavLM 弁別器を追加し、新しく設計された SLM 機能マッチング損失関数を追加します。その結果、テキスト ラベルを必要としない教師なしゼロショット音声変換システムが実現します。
トレーニング中に。
主観的な評価結果は、SLMGAN が自然さの点で既存の最先端のゼロショット音声変換モデルを上回っており、同等の類似性を達成していることを示しており、関連アプリケーションに対する SLM ベースの弁別器の可能性を強調しています。
要約(オリジナル)
In recent years, large-scale pre-trained speech language models (SLMs) have demonstrated remarkable advancements in various generative speech modeling applications, such as text-to-speech synthesis, voice conversion, and speech enhancement. These applications typically involve mapping text or speech inputs to pre-trained SLM representations, from which target speech is decoded. This paper introduces a new approach, SLMGAN, to leverage SLM representations for discriminative tasks within the generative adversarial network (GAN) framework, specifically for voice conversion. Building upon StarGANv2-VC, we add our novel SLM-based WavLM discriminators on top of the mel-based discriminators along with our newly designed SLM feature matching loss function, resulting in an unsupervised zero-shot voice conversion system that does not require text labels during training. Subjective evaluation results show that SLMGAN outperforms existing state-of-the-art zero-shot voice conversion models in terms of naturalness and achieves comparable similarity, highlighting the potential of SLM-based discriminators for related applications.
arxiv情報
著者 | Yinghao Aaron Li,Cong Han,Nima Mesgarani |
発行日 | 2023-07-18 17:09:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google