SingFake: Singing Voice Deepfake Detection

要約

歌声合成の台頭は、アーティストや業界関係者に、音声の不正使用をめぐる重大な課題を突き付けています。
合成音声とは異なり、合成歌声は通常、合成アーティファクトを隠す可能性のある強力なバックグラウンド ミュージックを含む曲でリリースされます。
さらに、歌声は、音声発話とは異なる音響的および言語的特徴を示します。
これらのユニークな特性により、歌声ディープフェイク検出は、合成音声検出とは関連性はあるものの、大きく異なる問題となります。
この研究では、歌声ディープフェイク検出タスクを提案します。
まず最初に SingFake を紹介します。これは、40 人の歌手による 5 つの言語による 28.93 時間の本物のソング クリップと 29.40 時間のディープフェイク ソング クリップで構成される、最初に厳選された野生のデータセットです。
テスト セットにさまざまなシナリオが含まれる、train/val/test 分割を提供します。
次に、SingFake を使用して、音声発話に対してトレーニングされた 4 つの最先端の音声対策システムを評価します。
これらのシステムは、音声テスト データのパフォーマンスよりも大幅に遅れていることがわかりました。
別々のボーカル トラックまたは歌の混合物を使用して SingFake でトレーニングすると、これらのシステムは大幅な改善を示します。
ただし、私たちの評価では、姿の見えない歌手、通信コーデック、言語、音楽のコンテキストに関連する課題も特定されており、歌声ディープフェイク検出についての専念的な研究が求められています。
SingFake データセットと関連リソースはオンラインで入手できます。

要約(オリジナル)

The rise of singing voice synthesis presents critical challenges to artists and industry stakeholders over unauthorized voice usage. Unlike synthesized speech, synthesized singing voices are typically released in songs containing strong background music that may hide synthesis artifacts. Additionally, singing voices present different acoustic and linguistic characteristics from speech utterances. These unique properties make singing voice deepfake detection a relevant but significantly different problem from synthetic speech detection. In this work, we propose the singing voice deepfake detection task. We first present SingFake, the first curated in-the-wild dataset consisting of 28.93 hours of bonafide and 29.40 hours of deepfake song clips in five languages from 40 singers. We provide a train/val/test split where the test sets include various scenarios. We then use SingFake to evaluate four state-of-the-art speech countermeasure systems trained on speech utterances. We find these systems lag significantly behind their performance on speech test data. When trained on SingFake, either using separated vocal tracks or song mixtures, these systems show substantial improvement. However, our evaluations also identify challenges associated with unseen singers, communication codecs, languages, and musical contexts, calling for dedicated research into singing voice deepfake detection. The SingFake dataset and related resources are available online.

arxiv情報

著者 Yongyi Zang,You Zhang,Mojtaba Heydari,Zhiyao Duan
発行日 2023-09-14 08:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク