Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer

要約

タイトル: Differentiable WORLD Synthesizerを用いたニューラルボコーダーとエンドトゥエンドオーディオスタイルトランスファーの応用

要約:
– この論文では、異なるWORLDシンセサイザーを提案し、(歌唱)音声変換やDDSP音色転送タスクなどのエンド・トゥー・エンドのオーディオスタイルトランスファータスクにおける使用を示しています。
– 基本的な異なるシンセサイザーにはモデルパラメータがなく、適切な合成品質を提供します。
– 黒箱ポストネットを付加することで、より高い品質の合成音を得ることが可能です。
– 別の異なるアプローチでは、ソース励起スペクトルの抽出を直接考慮することにより、自然さが向上しますが、スタイル転送アプリケーションにはより狭いクラスがあります。
– アコースティックフィーチャパラメータリゼーションによるアプローチは、ピッチと音色情報を自然に分離し、個別にモデル化できるという利点があります。
– また、モノフォニックオーディオソースからこれらの音響特徴を確実に推定できるため、エンド・トゥー・エンドの目的関数にパラメータ損失項を追加することが可能で、収束や/または(敵対的な)トレーニングの安定性をさらに向上することができます。

要約(オリジナル)

In this paper, we propose a differentiable WORLD synthesizer and demonstrate its use in end-to-end audio style transfer tasks such as (singing) voice conversion and the DDSP timbre transfer task. Accordingly, our baseline differentiable synthesizer has no model parameters, yet it yields adequate synthesis quality. We can extend the baseline synthesizer by appending lightweight black-box postnets which apply further processing to the baseline output in order to improve fidelity. An alternative differentiable approach considers extraction of the source excitation spectrum directly, which can improve naturalness albeit for a narrower class of style transfer applications. The acoustic feature parameterization used by our approaches has the added benefit that it naturally disentangles pitch and timbral information so that they can be modeled separately. Moreover, as there exists a robust means of estimating these acoustic features from monophonic audio sources, it allows for parameter loss terms to be added to an end-to-end objective function, which can help convergence and/or further stabilize (adversarial) training.

arxiv情報

著者 Shahan Nercessian
発行日 2023-05-08 13:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク