CapST: An Enhanced and Lightweight Model Attribution Approach for Synthetic Videos

要約

AI の顔交換技術によって生成されたディープフェイク動画は、強力ななりすまし攻撃の可能性があるため、大きな注目を集めています。
既存の研究は主に本物のビデオと偽のビデオを識別するためのバイナリ分類に焦点を当てていますが、フォレンジック調査では偽のビデオの特定の生成モデルを決定することが重要です。
このギャップに対処するために、この論文では、さまざまなオートエンコーダー モデルから派生した、最近提案されたデータセットである Deepfakes from Different Models (DFDM) からのディープフェイク ビデオのモデル帰属問題を調査します。
このデータセットは、エンコーダー、デコーダー、中間層、入力解像度、圧縮率が異なる 5 つの異なるモデルによって生成された 6,450 個のディープフェイク ビデオで構成されています。
この研究では、ディープフェイク モデルの帰属をマルチクラス分類タスクとして定式化し、画像関連タスクでの有効性で知られる特徴抽出バックボーンとして VGG19 のセグメントを提案すると同時に、カプセル ネットワークと時空間的注意メカニズムを統合しました。
Capsule モジュールは、ディープフェイク属性を確実に識別するために、特徴間の複雑な階層をキャプチャします。
さらに、ビデオレベルの融合技術は、時間的注意メカニズムを利用して連結された特徴ベクトルを処理し、ディープフェイクビデオに固有の時間的依存関係を利用します。
フレーム全体にわたる洞察を集約することで、モデルはビデオ コンテンツを包括的に理解し、より正確な予測を実現します。
ディープフェイク ベンチマーク データセット (DFDM) の実験結果は、私たちが提案する方法の有効性を示しており、必要な計算リソースを減らしながら、ベースライン モデルと比較してディープフェイク ビデオを正確に分類する際に最大 4% の向上を達成しました。

要約(オリジナル)

Deepfake videos, generated through AI faceswapping techniques, have garnered considerable attention due to their potential for powerful impersonation attacks. While existing research primarily focuses on binary classification to discern between real and fake videos, however determining the specific generation model for a fake video is crucial for forensic investigation. Addressing this gap, this paper investigates the model attribution problem of Deepfake videos from a recently proposed dataset, Deepfakes from Different Models (DFDM), derived from various Autoencoder models. The dataset comprises 6,450 Deepfake videos generated by five distinct models with variations in encoder, decoder, intermediate layer, input resolution, and compression ratio. This study formulates Deepfakes model attribution as a multiclass classification task, proposing a segment of VGG19 as a feature extraction backbone, known for its effectiveness in imagerelated tasks, while integrated a Capsule Network with a Spatio-Temporal attention mechanism. The Capsule module captures intricate hierarchies among features for robust identification of deepfake attributes. Additionally, the video-level fusion technique leverages temporal attention mechanisms to handle concatenated feature vectors, capitalizing on inherent temporal dependencies in deepfake videos. By aggregating insights across frames, our model gains a comprehensive understanding of video content, resulting in more precise predictions. Experimental results on the deepfake benchmark dataset (DFDM) demonstrate the efficacy of our proposed method, achieving up to a 4% improvement in accurately categorizing deepfake videos compared to baseline models while demanding fewer computational resources.

arxiv情報

著者 Wasim Ahmad,Yan-Tsung Peng,Yuan-Hao Chang,Gaddisa Olani Ganfure,Sarwar Khan,Sahibzada Adil Shahzad
発行日 2024-01-22 14:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク