Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

要約

オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデータとビジュアルデータの間の不一致をモデル化するための高レベルの機能に主に焦点を当てています。
結果として、これらのアプローチでは通常、ディープフェイクに固有の微細なオーディオビジュアルアーティファクトが見落とされます。
ここでは、空間領域と時間領域の両方で微妙なアーティファクトを検出するためのきめの細かいメカニズムの導入を提案します。
まず、音声との不一致が生じやすい小さな空間領域をキャプチャできるローカル オーディオビジュアル モデルを導入します。
この目的のために、アテンションモジュールと結合された空間的局所的距離に基づくきめ細かいメカニズムが採用されています。
2 番目に、時間的に局所的な擬似的な拡張を導入して、トレーニング セットに微妙な時間的不一致を組み込んだサンプルを含めます。
DFDC および FakeAVCeleb データセットの実験では、データセット内およびデータセット間の設定の両方で、最先端の方法と比較して、一般化の観点から提案された方法の優位性が実証されています。

要約(オリジナル)

Existing methods on audio-visual deepfake detection mainly focus on high-level features for modeling inconsistencies between audio and visual data. As a result, these approaches usually overlook finer audio-visual artifacts, which are inherent to deepfakes. Herein, we propose the introduction of fine-grained mechanisms for detecting subtle artifacts in both spatial and temporal domains. First, we introduce a local audio-visual model capable of capturing small spatial regions that are prone to inconsistencies with audio. For that purpose, a fine-grained mechanism based on a spatially-local distance coupled with an attention module is adopted. Second, we introduce a temporally-local pseudo-fake augmentation to include samples incorporating subtle temporal inconsistencies in our training set. Experiments on the DFDC and the FakeAVCeleb datasets demonstrate the superiority of the proposed method in terms of generalization as compared to the state-of-the-art under both in-dataset and cross-dataset settings.

arxiv情報

著者 Marcella Astrid,Enjie Ghorbel,Djamila Aouada
発行日 2024-10-14 16:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク