Harder or Different? Understanding Generalization of Audio Deepfake Detection

要約

最近の研究では、音声ディープフェイク検出における重要な問題が明らかになりました。それは、あるセットのディープフェイクでトレーニングされたモデルが、他のセットではパフォーマンスが低いということです。
疑問が生じます。これは、Text-to-Speech (TTS) モデルの品質が継続的に向上しているためでしょうか。つまり、新しい DeepFake は単に検出が「困難」なだけなのでしょうか。
それとも、あるモデルで生成されたディープフェイクは、別のモデルで生成されたディープフェイクとは根本的に異なるためでしょうか?
私たちは、ドメイン内とドメイン外のテスト データ間のパフォーマンスのギャップを「硬度」と「差」の要素に分解することで、この質問に答えます。
ASVspoof データベースを使用して実行された実験では、硬度成分は実質的に無視でき、パフォーマンスのギャップは主に差異成分に起因することが示されています。
これは現実世界のディープフェイク検出に直接的な影響を及ぼし、現在主流の研究トレンドであるモデルの能力を増やすだけでは一般化の課題に効果的に対処できない可能性があることを浮き彫りにしています。

要約(オリジナル)

Recent research has highlighted a key issue in speech deepfake detection: models trained on one set of deepfakes perform poorly on others. The question arises: is this due to the continuously improving quality of Text-to-Speech (TTS) models, i.e., are newer DeepFakes just ‘harder’ to detect? Or, is it because deepfakes generated with one model are fundamentally different to those generated using another model? We answer this question by decomposing the performance gap between in-domain and out-of-domain test data into ‘hardness’ and ‘difference’ components. Experiments performed using ASVspoof databases indicate that the hardness component is practically negligible, with the performance gap being attributed primarily to the difference component. This has direct implications for real-world deepfake detection, highlighting that merely increasing model capacity, the currently-dominant research trend, may not effectively address the generalization challenge.

arxiv情報

著者 Nicolas M. Müller,Nicholas Evans,Hemlata Tak,Philip Sperl,Konstantin Böttinger
発行日 2024-06-12 16:54:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク