要約
深層音声合成モデルの急速な進歩は、悪意のあるコンテンツ操作などの重大な脅威を社会にもたらしています。
したがって、いわゆるディープフェイク音声を検出するための多くの研究が登場しています。
ただし、既存の研究は、本物のオーディオと偽のオーディオのバイナリ検出に焦点を当てています。
モデルの著作権保護やデジタル証拠フォレンジックなどの現実のシナリオでは、決定を説明するためにディープフェイク音声を生成したツールやモデルを知る必要があります。
このことから、私たちは「ディープフェイク オーディオのシステム フィンガープリントを認識できるだろうか?」という疑問を抱くようになりました。
この論文では、システム指紋認識 (SFR) 用の最初のディープフェイク音声データセットを紹介し、初期調査を実施します。
私たちは、クリーン セットと圧縮セットの両方を含む、最新の深層学習テクノロジを使用する中国のベンダー 7 社の音声合成システムからデータセットを収集しました。
さらに、システム指紋認識方法のさらなる開発を促進するために、比較可能な広範なベンチマークと研究結果を提供します。
データセットは一般公開されます。
。
要約(オリジナル)
The rapid progress of deep speech synthesis models has posed significant threats to society such as malicious content manipulation. Therefore, many studies have emerged to detect the so-called deepfake audio. However, existing works focus on the binary detection of real audio and fake audio. In real-world scenarios such as model copyright protection and digital evidence forensics, it is needed to know what tool or model generated the deepfake audio to explain the decision. This motivates us to ask: Can we recognize the system fingerprints of deepfake audio? In this paper, we present the first deepfake audio dataset for system fingerprint recognition (SFR) and conduct an initial investigation. We collected the dataset from the speech synthesis systems of seven Chinese vendors that use the latest state-of-the-art deep learning technologies, including both clean and compressed sets. In addition, to facilitate the further development of system fingerprint recognition methods, we provide extensive benchmarks that can be compared and research findings. The dataset will be publicly available. .
arxiv情報
著者 | Xinrui Yan,Jiangyan Yi,Chenglong Wang,Jianhua Tao,Junzuo Zhou,Hao Gu,Ruibo Fu |
発行日 | 2023-09-15 07:19:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google