Delving into Sequential Patches for Deepfake Detection

要約

最近の顔偽造技術の進歩により、視覚的にほとんど追跡できないディープフェイク動画が作成され、悪意を持って悪用される可能性があります。
その結果、研究者はディープフェイクの検出に専念してきました。
以前の研究では、ディープフェイク手法全体でうまく一般化することを追求するために、局所的な低レベルの手がかりと時間情報の重要性が特定されていますが、後処理に対する堅牢性の問題は依然としてあります。
この作業では、ローカル シーケンス内の貴重な時間情報に特に焦点を当てたローカルからグローバルへの学習プロトコルを採用する、ローカルおよび時間認識トランスフォーマー ベースのディープフェイク検出 (LTTD) フレームワークを提案します。
具体的には、ローカル シーケンス トランスフォーマー (LST) を提案します。これは、制限された空間領域のシーケンスの時間的一貫性をモデル化します。低レベルの情報は、学習した 3D フィルターの浅いレイヤーで階層的に強化されます。
ローカルの一時的な埋め込みに基づいて、グローバルな対照的な方法で最終的な分類を実現します。
一般的なデータセットでの広範な実験により、私たちのアプローチがローカルの偽造の手がかりを効果的に特定し、最先端のパフォーマンスを達成することが検証されています。

要約(オリジナル)

Recent advances in face forgery techniques produce nearly visually untraceable deepfake videos, which could be leveraged with malicious intentions. As a result, researchers have been devoted to deepfake detection. Previous studies have identified the importance of local low-level cues and temporal information in pursuit to generalize well across deepfake methods, however, they still suffer from robustness problem against post-processings. In this work, we propose the Local- & Temporal-aware Transformer-based Deepfake Detection (LTTD) framework, which adopts a local-to-global learning protocol with a particular focus on the valuable temporal information within local sequences. Specifically, we propose a Local Sequence Transformer (LST), which models the temporal consistency on sequences of restricted spatial regions, where low-level information is hierarchically enhanced with shallow layers of learned 3D filters. Based on the local temporal embeddings, we then achieve the final classification in a global contrastive way. Extensive experiments on popular datasets validate that our approach effectively spots local forgery cues and achieves state-of-the-art performance.

arxiv情報

著者 Jiazhi Guan,Hang Zhou,Zhibin Hong,Errui Ding,Jingdong Wang,Chengbin Quan,Youjian Zhao
発行日 2022-10-12 16:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク