要約
ディープフェイクとは、深層生成アルゴリズムを用いて生成された合成メディアのことで、社会的・政治的に深刻な脅威となっている。顔操作や合成音声とは別に、最近では、音声または視覚モダリティを操作した新種のディープフェイクが出現している。この観点から、マルチモーダルな操作検出のために音声と視覚のデータにまとめて焦点を当てる、新世代のマルチモーダルなオーディオビジュアル・ディープフェイク検出器が研究されている。既存のマルチモーダル(オーディオビジュアル)ディープフェイク検出器は、多くの場合、映像からのオーディオストリームとビジュアルストリームの融合に基づいている。既存の研究では、このようなマルチモーダル検出器は、多くの場合、音声と視覚のユニモーダルディープフェイク検出器と同等の性能を得ることが示唆されている。我々は、音声信号と視覚信号の異質な性質が、分布モダリティギャップを生み出し、効果的な融合と効率的な性能に大きな課題をもたらすと推測している。本論文では、マルチモーダルなディープフェイク検出のための音声ストリームと視覚ストリームの融合を支援するために、表現レベルでこの問題に取り組む。具体的には、モダリティ(音声と視覚)に不変な表現と特異的な表現の共同利用を提案する。これにより、マルチモーダルなディープフェイク操作検出のために、原始的なコンテンツまたはフェイクコンテンツを表す共通パターンと各モダリティに固有のパターンが保存され、融合されることが保証される。FakeAVCelebデータセットとKoDFオーディオビジュアルディープフェイクデータセットに対する実験結果は、SOTAユニモーダルディープフェイク検出器とマルチモーダルオーディオビジュアルディープフェイク検出器に対して、提案手法の精度がそれぞれ$17.8$%と$18.4$%向上したことを示唆する。したがって、最先端の性能を得ることができる。
要約(オリジナル)
Deepfakes are synthetic media generated using deep generative algorithms and have posed a severe societal and political threat. Apart from facial manipulation and synthetic voice, recently, a novel kind of deepfakes has emerged with either audio or visual modalities manipulated. In this regard, a new generation of multimodal audio-visual deepfake detectors is being investigated to collectively focus on audio and visual data for multimodal manipulation detection. Existing multimodal (audio-visual) deepfake detectors are often based on the fusion of the audio and visual streams from the video. Existing studies suggest that these multimodal detectors often obtain equivalent performances with unimodal audio and visual deepfake detectors. We conjecture that the heterogeneous nature of the audio and visual signals creates distributional modality gaps and poses a significant challenge to effective fusion and efficient performance. In this paper, we tackle the problem at the representation level to aid the fusion of audio and visual streams for multimodal deepfake detection. Specifically, we propose the joint use of modality (audio and visual) invariant and specific representations. This ensures that the common patterns and patterns specific to each modality representing pristine or fake content are preserved and fused for multimodal deepfake manipulation detection. Our experimental results on FakeAVCeleb and KoDF audio-visual deepfake datasets suggest the enhanced accuracy of our proposed method over SOTA unimodal and multimodal audio-visual deepfake detectors by $17.8$% and $18.4$%, respectively. Thus, obtaining state-of-the-art performance.
arxiv情報
著者 | Vinaya Sree Katamneni,Ajita Rattani |
発行日 | 2023-10-03 17:43:24+00:00 |
arxivサイト | arxiv_id(pdf) |