要約
人気歌手のクローン音声はますますリアルに聞こえ、ここ数年で人気が高まっています。
しかし、これらは人格権の問題から業界にとって脅威となっています。
したがって、合成音声で元の歌手を識別する方法が必要です。
この論文では、歌手の識別方法がそのようなタスクにどのように使用できるかを調査します。
歌手レベルの対照学習スキームを使用してトレーニングされた 3 つの埋め込みモデルを紹介します。ポジティブ ペアは、同じ歌手のボーカルを含むセグメントで構成されます。
これらのセグメントは、最初のモデルではミックス、2 番目ではボーカル、3 番目では両方を混合することができます。
3 つのモデルすべてが本物の歌手を識別する能力が高いことを示します。
ただし、評価セットで歌手のクローン バージョンを分類すると、パフォーマンスが低下します。
これは、混合物を入力として使用するモデルに特に当てはまります。
これらの発見は、歌手識別システム内に存在するバイアスと、それが音楽内の音声ディープフェイクの識別にどのように影響するかを理解する必要性を浮き彫りにしています。
要約(オリジナル)
Cloned voices of popular singers sound increasingly realistic and have gained popularity over the past few years. They however pose a threat to the industry due to personality rights concerns. As such, methods to identify the original singer in synthetic voices are needed. In this paper, we investigate how singer identification methods could be used for such a task. We present three embedding models that are trained using a singer-level contrastive learning scheme, where positive pairs consist of segments with vocals from the same singers. These segments can be mixtures for the first model, vocals for the second, and both for the third. We demonstrate that all three models are highly capable of identifying real singers. However, their performance deteriorates when classifying cloned versions of singers in our evaluation set. This is especially true for models that use mixtures as an input. These findings highlight the need to understand the biases that exist within singer identification systems, and how they can influence the identification of voice deepfakes in music.
arxiv情報
著者 | Dorian Desblancs,Gabriel Meseguer-Brocal,Romain Hennequin,Manuel Moussallam |
発行日 | 2024-07-11 16:25:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google