Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning

要約

通常、音声変換はトレーニング データが限られているエンジニアリング上の問題とみなされます。
大量のデータへの依存は、近年広く研究されている深層学習アプローチの実用化を妨げています。
一方、統計的手法は限られたデータでは効果的ですが、複雑なマッピング関数をモデル化するのが困難です。
この論文では、限られたデータを処理し、確率的変分深層学習 (SVDKL) に基づいた音声変換方法を提案します。
同時に、SVDKL はディープ ニューラル ネットワークの表現力と、ベイジアンおよびノンパラメトリック手法としてのガウス プロセスの高い柔軟性の使用を可能にします。
従来のカーネルとディープ ニューラル ネットワークを組み合わせると、非滑らかでより複雑な関数を推定することが可能になります。
さらに、モデルの疎変分ガウス プロセスはスケーラビリティの問題を解決し、正確なガウス プロセスとは異なり、音響空間全体のグローバル マッピング関数の学習を可能にします。
提案されたスキームの最も重要な側面の 1 つは、データ フィッティングとモデルの複雑さの両方を考慮する周辺尤度最適化を使用してモデル パラメーターがトレーニングされることです。
モデルの複雑さを考慮すると、過学習に対する耐性が高まり、トレーニング データの量が削減されます。
提案されたスキームを評価するために、約 80 秒のトレーニング データを使用してモデルのパフォーマンスを検査しました。
結果は、私たちの方法が比較された方法よりも高い平均意見スコア、より小さなスペクトル歪み、より優れた嗜好テストを取得したことを示しました。

要約(オリジナル)

Typically, voice conversion is regarded as an engineering problem with limited training data. The reliance on massive amounts of data hinders the practical applicability of deep learning approaches, which have been extensively researched in recent years. On the other hand, statistical methods are effective with limited data but have difficulties in modelling complex mapping functions. This paper proposes a voice conversion method that works with limited data and is based on stochastic variational deep kernel learning (SVDKL). At the same time, SVDKL enables the use of deep neural networks’ expressive capability as well as the high flexibility of the Gaussian process as a Bayesian and non-parametric method. When the conventional kernel is combined with the deep neural network, it is possible to estimate non-smooth and more complex functions. Furthermore, the model’s sparse variational Gaussian process solves the scalability problem and, unlike the exact Gaussian process, allows for the learning of a global mapping function for the entire acoustic space. One of the most important aspects of the proposed scheme is that the model parameters are trained using marginal likelihood optimization, which considers both data fitting and model complexity. Considering the complexity of the model reduces the amount of training data by increasing the resistance to overfitting. To evaluate the proposed scheme, we examined the model’s performance with approximately 80 seconds of training data. The results indicated that our method obtained a higher mean opinion score, smaller spectral distortion, and better preference tests than the compared methods.

arxiv情報

著者 Mohamadreza Jafaryani,Hamid Sheikhzadeh,Vahid Pourahmadi
発行日 2023-09-08 16:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク