A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion

要約

以前の研究では、話し声変換 (VC) の確立された手法は、歌声変換 (SVC) に適用した場合、うまく機能しないことが示されています。
私たちは、モデルの SVC パフォーマンスを改善することが示されている、VC タスク間で確立されている損失関数の代替損失コンポーネントを提案します。
まず、対照学習を使用して歌手固有の分散エンコーディングを生成するために、歌手録音のメル スペクトログラムで歌手 ID 埋め込み (SIE) ネットワークをトレーニングしました。
その後、これらの SIE を条件としたよく知られたオートエンコーダー フレームワーク (AutoVC) をトレーニングし、さまざまな潜在回帰損失コンポーネントを使用した場合の SVC パフォーマンスの違いを測定しました。
この損失を使用すると、
SIE は w.r.t よりも優れたパフォーマンスをもたらします。
変換されたオーディオがより自然で、ターゲットの歌手に固有のボトルネックの埋め込み。
この損失コンポーネントを含めることには、ネットワークに音色の類似性を明示的に強制的に再構築させるという利点があり、AutoVC のボトルネックの埋め込みにおける不十分なもつれの解消の影響も無効にします。
歌手によって変換されたオーディオ クリップに対する計算による評価と人間による評価との間の独特の多様性を示し、両方の必要性を強調しています。
また、ソース歌手とターゲット歌手の間のピッチマッチングメカニズムを提案して、これらの評価がピッチレジスタの違いに影響されないようにします。

要約(オリジナル)

Previous research has shown that established techniques for spoken voice conversion (VC) do not perform as well when applied to singing voice conversion (SVC). We propose an alternative loss component in a loss function that is otherwise well-established among VC tasks, which has been shown to improve our model’s SVC performance. We first trained a singer identity embedding (SIE) network on mel-spectrograms of singer recordings to produce singer-specific variance encodings using contrastive learning. We subsequently trained a well-known autoencoder framework (AutoVC) conditioned on these SIEs, and measured differences in SVC performance when using different latent regressor loss components. We found that using this loss w.r.t. SIEs leads to better performance than w.r.t. bottleneck embeddings, where converted audio is more natural and specific towards target singers. The inclusion of this loss component has the advantage of explicitly forcing the network to reconstruct with timbral similarity, and also negates the effect of poor disentanglement in AutoVC’s bottleneck embeddings. We demonstrate peculiar diversity between computational and human evaluations on singer-converted audio clips, which highlights the necessity of both. We also propose a pitch-matching mechanism between source and target singers to ensure these evaluations are not influenced by differences in pitch register.

arxiv情報

著者 Brendan O’Connor,Simon Dixon
発行日 2023-02-27 11:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク