要約
歌声合成と歌声変換は大きく進化し、音楽体験に革命をもたらしました。
しかし、これらの技術によって生成された「ディープフェイクソング」の台頭により、信憑性に対する懸念が生じています。
オーディオディープフェイク検出 (ADD) とは異なり、歌ディープフェイク検出の分野には、歌の信頼性を検証するための特殊なデータセットや方法がありません。
この論文では、まず、歌のディープフェイク検出の分野を調査するために、中国の偽歌検出 (FSD) データセットを構築します。
FSD データセット内のフェイクソングは、5 つの最先端の歌声合成および歌声変換手法によって生成されます。
FSD に関する私たちの最初の実験では、歌のディープフェイク検出のタスクに対して、既存の音声学習済み ADD モデルが非効率であることが明らかになりました。
したがって、ADD モデルのトレーニングには FSD データセットを使用します。
その後、これらのモデルを 2 つのシナリオで評価します。1 つはオリジナルの曲を使用し、もう 1 つは分離されたボーカル トラックを使用します。
実験の結果、歌でトレーニングされた ADD モデルは、FSD テスト セットで音声でトレーニングされた ADD モデルと比較して、平均等誤り率が 38.58% 減少することが示されました。
要約(オリジナル)
Singing voice synthesis and singing voice conversion have significantly advanced, revolutionizing musical experiences. However, the rise of ‘Deepfake Songs’ generated by these technologies raises concerns about authenticity. Unlike Audio DeepFake Detection (ADD), the field of song deepfake detection lacks specialized datasets or methods for song authenticity verification. In this paper, we initially construct a Chinese Fake Song Detection (FSD) dataset to investigate the field of song deepfake detection. The fake songs in the FSD dataset are generated by five state-of-the-art singing voice synthesis and singing voice conversion methods. Our initial experiments on FSD revealed the ineffectiveness of existing speech-trained ADD models for the task of song deepFake detection. Thus, we employ the FSD dataset for the training of ADD models. We subsequently evaluate these models under two scenarios: one with the original songs and another with separated vocal tracks. Experiment results show that song-trained ADD models exhibit a 38.58% reduction in average equal error rate compared to speech-trained ADD models on the FSD test set.
arxiv情報
著者 | Yuankun Xie,Jingjing Zhou,Xiaolin Lu,Zhenghao Jiang,Yuxin Yang,Haonan Cheng,Long Ye |
発行日 | 2023-09-06 11:13:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google