Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model

要約

ディープラーニングの台頭により、生成モデルにより非常にリアルな合成画像の作成が可能になりましたが、誤用の可能性による課題が生じています。
これに応じてディープフェイク検出の研究が急速に成長している一方で、多くの検出方法は、新しい合成技術によって生成された目に見えないディープフェイクに苦戦しています。
この一般化の課題に対処するために、私たちは、基盤モデル内にエンコードされた豊富な情報を内部にエンコードされた豊富な情報に適合させることにより、特にダウンストリーム タスクに対して強力なゼロショット機能を実証している CLIP の画像エンコーダを使用することにより、新しいディープフェイク検出アプローチを提案します。
パラメータの効率的な微調整の最近の進歩に触発され、空間的特徴を誘導するフェイシャル コンポーネント ガイダンス (FCG) の推進とともに、指定されたビデオ クリップから空間的および時間的キューを抽出する新しいサイドネットワーク ベースのデコーダを提案します。
より堅牢かつ一般的なディープフェイク検出のために、主要な顔の部分の特徴を含めます。
広範なデータセット間の評価を通じて、私たちのアプローチは、目に見えないディープフェイクサンプルを特定する際に優れた有効性を示し、限られたトレーニングサンプルと操作タイプでも顕著なパフォーマンスの向上を達成します。
私たちのモデルは、最先端の手法と比較して、クロスデータセット評価において AUROC の平均 0.9% のパフォーマンス向上を確保しており、特に、困難な DFDC データセットで 4.4% の向上を達成するという大幅なリードを確立しています。

要約(オリジナル)

With the rise of deep learning, generative models have enabled the creation of highly realistic synthetic images, presenting challenges due to their potential misuse. While research in Deepfake detection has grown rapidly in response, many detection methods struggle with unseen Deepfakes generated by new synthesis techniques. To address this generalisation challenge, we propose a novel Deepfake detection approach by adapting rich information encoded inside the Foundation Models with rich information encoded inside, specifically using the image encoder from CLIP which has demonstrated strong zero-shot capability for downstream tasks. Inspired by the recent advances of parameter efficient fine-tuning, we propose a novel side-network-based decoder to extract spatial and temporal cues from the given video clip, with the promotion of the Facial Component Guidance (FCG) to guidencourage the spatial feature to include features of key facial parts for more robust and general Deepfake detection. Through extensive cross-dataset evaluations, our approach exhibits superior effectiveness in identifying unseen Deepfake samples, achieving notable performance improvementsuccess even with limited training samples and manipulation types. Our model secures an average performance enhancement of 0.9% AUROC in cross-dataset assessments comparing with state-of-the-art methods, especiallytablishing a significant lead of achieving 4.4% improvement on the challenging DFDC dataset.

arxiv情報

著者 Yue-Hua Han,Tai-Ming Huang,Shu-Tzu Lo,Po-Han Huang,Kai-Lung Hua,Jun-Cheng Chen
発行日 2024-04-08 14:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク