System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation

要約

深層音声合成モデルの悪用は、社会に重大な脅威をもたらす可能性があります。
そのため、いわゆる「ディープフェイク オーディオ」を検出するための多くの研究が行われています。
ただし、これらの研究は、本物の音声と偽の音声のバイナリ検出に焦点を当てています。
一部の現実的なアプリケーション シナリオでは、どのツールまたはモデルがディープフェイク オーディオを生成したかを知る必要があります。
ここで疑問が生じます: ディープフェイク オーディオのシステム フィンガープリントを認識できるでしょうか?
したがって、この論文では、システム指紋認識(SFR)用のディープフェイク音声データセットを提案し、初期調査を行います。
クリーン セットと圧縮セットの両方を含む最新のディープ ラーニング テクノロジを使用して、5 つの音声合成システムからデータセットを収集しました。
さらに、システムの指紋認識方法のさらなる開発を促進するために、比較可能ないくつかのベンチマークと調査結果を研究者に提供します。
データセットは公開されます。

要約(オリジナル)

The malicious use of deep speech synthesis models may pose significant threat to society. Therefore, many studies have emerged to detect the so-called “deepfake audio’. However, these studies focus on the binary detection of real audio and fake audio. For some realistic application scenarios, it is needed to know what tool or model generated the deepfake audio. This raises a question: Can we recognize the system fingerprints of deepfake audio? Therefore, in this paper, we propose a deepfake audio dataset for system fingerprint recognition (SFR) and conduct an initial investigation. We collected the dataset from five speech synthesis systems using the latest state-of-the-art deep learning technologies, including both clean and compressed sets. In addition, to facilitate the further development of system fingerprint recognition methods, we give researchers some benchmarks that can be compared, and research findings. The dataset will be publicly available.

arxiv情報

著者 Xinrui Yan,Jiangyan Yi,Jianhua Tao,Chenglong Wang,Chuyuan Zhang,Ruibo Fu
発行日 2023-02-15 06:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク