SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

要約

歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の声を別の歌手に変換することを目的としています。
我々は、ゼロショットの多対多の歌声変換を可能にするために、SaMoye と名付けたエンドツーエンドの特徴分解ベースのモデルを提案します。
SaMoye は、歌声の特徴をそれぞれ内容の特徴、音色の特徴、ピッチの特徴に分解します。
コンテンツ機能は、GPT ベースのモデルを使用して強化され、歌詞の音素との相互予測を実行します。
SaMoye は、対象の歌手の音色特徴を置き換えることにより、変換された音声で音楽を生成できます。
また、ゼロショットのパフォーマンスを保証するために、比類のない大規模なデータセットを確立します。
このデータセットは、少なくとも 10,000 人の歌手を含む 1500,000 の純粋な歌唱ボーカル クリップで構成されています。

要約(オリジナル)

Singing voice conversion (SVC) aims to convert a singer’s voice in a given music piece to another singer while keeping the original content. We propose an end-to-end feature disentanglement-based model, which we named SaMoye, to enable zero-shot many-to-many singing voice conversion. SaMoye disentangles the features of the singing voice into content features, timbre features, and pitch features respectively. The content features are enhanced using a GPT-based model to perform cross-prediction with the phoneme of the lyrics. SaMoye can generate the music with converted voice by replacing the timbre features with the target singer. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance. The dataset consists of 1500k pure singing vocal clips containing at least 10,000 singers.

arxiv情報

著者 Zihao Wang,Le Ma,Yan Liu,Kejun Zhang
発行日 2024-07-11 03:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 パーマリンク