System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation


そのため、いわゆる「ディープフェイク オーディオ」を検出するための多くの研究が行われています。
一部の現実的なアプリケーション シナリオでは、どのツールまたはモデルがディープフェイク オーディオを生成したかを知る必要があります。
ここで疑問が生じます: ディープフェイク オーディオのシステム フィンガープリントを認識できるでしょうか?
クリーン セットと圧縮セットの両方を含む最新のディープ ラーニング テクノロジを使用して、5 つの音声合成システムからデータセットを収集しました。


The malicious use of deep speech synthesis models may pose significant threat to society. Therefore, many studies have emerged to detect the so-called “deepfake audio’. However, these studies focus on the binary detection of real audio and fake audio. For some realistic application scenarios, it is needed to know what tool or model generated the deepfake audio. This raises a question: Can we recognize the system fingerprints of deepfake audio? Therefore, in this paper, we propose a deepfake audio dataset for system fingerprint recognition (SFR) and conduct an initial investigation. We collected the dataset from five speech synthesis systems using the latest state-of-the-art deep learning technologies, including both clean and compressed sets. In addition, to facilitate the further development of system fingerprint recognition methods, we give researchers some benchmarks that can be compared, and research findings. The dataset will be publicly available.


著者 Xinrui Yan,Jiangyan Yi,Jianhua Tao,Chenglong Wang,Chuyuan Zhang,Ruibo Fu
発行日 2023-02-15 06:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク