StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

要約

ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リファレンス歌声サンプルから派生した、目に見えないスタイル (音色、感情、発音、アーティキュレーション スキルなど) を備えた高品質の歌声を生成することに重点を置いています。
しかし、歌声は驚くべき表現力を持っているため、歌声スタイルの複雑なニュアンスをモデル化するのは困難な作業です。
さらに、既存の SVS 方法は、ターゲットの音声属性がトレーニング段階で識別可能であるという前提に基づいているため、OOD シナリオで合成された歌声の品質の低下に遭遇します。
これらの課題を克服するために、我々は、ドメイン外の参照歌声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである StyleSinger を提案します。
StyleSinger には、効果を高めるための 2 つの重要なアプローチが組み込まれています。1) 残留量子化モジュールを使用して歌声の多様なスタイル特性を捕捉する残留スタイル アダプター (RSA)、および 2) 内部のスタイル属性を混乱させる不確実性モデリング レイヤー正規化 (UMLN)
トレーニング段階でのコンテンツ表現を強化し、モデルの一般化を向上させます。
ゼロショット スタイル転送における広範な評価により、StyleSinger がオーディオ品質と基準歌声サンプルとの類似性の両方においてベースライン モデルよりも優れていることが疑いなく確立されています。
歌声サンプルへのアクセスは、https://stylesinger.github.io/ からご覧いただけます。

要約(オリジナル)

Style transfer for out-of-domain (OOD) singing voice synthesis (SVS) focuses on generating high-quality singing voices with unseen styles (such as timbre, emotion, pronunciation, and articulation skills) derived from reference singing voice samples. However, the endeavor to model the intricate nuances of singing voice styles is an arduous task, as singing voices possess a remarkable degree of expressiveness. Moreover, existing SVS methods encounter a decline in the quality of synthesized singing voices in OOD scenarios, as they rest upon the assumption that the target vocal attributes are discernible during the training phase. To overcome these challenges, we propose StyleSinger, the first singing voice synthesis model for zero-shot style transfer of out-of-domain reference singing voice samples. StyleSinger incorporates two critical approaches for enhanced effectiveness: 1) the Residual Style Adaptor (RSA) which employs a residual quantization module to capture diverse style characteristics in singing voices, and 2) the Uncertainty Modeling Layer Normalization (UMLN) to perturb the style attributes within the content representation during the training phase and thus improve the model generalization. Our extensive evaluations in zero-shot style transfer undeniably establish that StyleSinger outperforms baseline models in both audio quality and similarity to the reference singing voice samples. Access to singing voice samples can be found at https://stylesinger.github.io/.

arxiv情報

著者 Yu Zhang,Rongjie Huang,Ruiqi Li,JinZheng He,Yan Xia,Feiyang Chen,Xinyu Duan,Baoxing Huai,Zhou Zhao
発行日 2024-09-12 05:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク